在投資行業,大家普遍認為另類資料是一種新出現的資料型別,但事實上,另類資料的“新”只是對於投資行業的,這是因為它在初期被沉澱下來的目的並非為了服務投資者,而是為了實際業務的需要而產生的。 這樣的資料隨著時間的推移,積累到一定量的時候,就會產生出對公司、行業甚至宏觀經濟都能起到一定監測作用的資料集。
舉個例子, 目前全球最大的投資行業另類資料提供商-YipitData起初收集Groupon(美國一家團購網站)的資料其實不是為了賣給投資人。這家公司最初期的業務是給Yipit的會員傳送他們所關注的Groupon商品的打折資訊。為了收集Groupon上的打折資訊,Yipit用爬蟲程式獲取了絕大部分Groupon的商品銷售資訊。碰巧Groupon正好是一家美股上市公司,當一些對沖基金知道了有這樣的資料後,就找到了YipitData並花大價錢買下了Groupon的資料,因為個別的對沖基金分析師在當時就發現這樣的資料可以幫助他們更好的預測Groupon下一個季度的財務情況。YipitData管理層得到了這樣的啟發後,便把公司轉型成了一家專注為投資行業提供各種另類資料的公司。
所以,筆者認為另類資料其實並不是一種“新”的資料,大部分情況下這樣的資料並不新,它只是還沒有被投資行業所廣泛運用或者是沒有被人整理成投資行業能夠使用的形式。正是這樣的特性,使得另類資料比普通的財務和宏觀資料更難於發現和使用,但一旦被發現並被分析師研究出了合理的使用方法,另類資料將為投資帶來不錯的Alpha。
接下來我們從分類上對主要的兩種另類資料進行拆分,更好的理解這兩種主流的另類資料。
按照獲取方式來分:
Ø可以透過爬蟲從公開渠道獲取的資料;
Ø存放於商家、政府部門或第三方機構的資料;
爬蟲資料
先從爬蟲資料說起,爬蟲資料對於監測網際網路以及高度依賴網際網路做為渠道的公司都可以起到一定的監測效果。
大家可以看到,資料從網站上被收集下來後,呈現的狀態是處於原始狀態的,投資行業的大部分分析師是沒有能力對這種形式的資料進行處理的。所以這樣的資料是需要大量的資料分析員和工程師進行清洗和整合的。
以上只是一個非常簡單的舉例,但實際的爬蟲會面臨很多問題,是需要專業的工程師進行開發和維護的,並且高質量的資料庫架構,維護和資料清洗也是需要非常專業的技術人員與裝置的。對於分析師來說,不可能掌握所有的細節,但對於資料獲取和清洗有一定的認知對於用好另類資料是必不可少的知識。 在應用層面,我們可以透過分析某貓的資料監測到幾百家上市公司的部分終端消費情況以及某貓的母公司的GMV情況,對於投資研究來說,是很有意義的。
爬蟲可以獲取的資訊其實除了天貓這樣平臺,我們還可以透過收集某些單個公司頁面上的資料對公司的基本面進行跟蹤。比如美股上市公司好未來,由於其報名渠道已經基本在線上了,也就意味著絕大部分開班資訊都會展示在其官方頁面上。
我們可以提取出課程名,價格,地址,科目,是否滿班,學習中心數量等資訊。這樣我們可以測算出課程滿課率和公司的產能擴張進度等關鍵運營資訊。
我們可以透過資料分析,提前半年知道學而思產能忽然從春季的同比40%+增長降到了暑假的20%以下(暑期4月開始報名,公司10月下旬披露暑期業績)。
透過爬蟲能監測的公司有很多,我們這次就不展開寫了。接下來再介紹一種常見的另類資料來源-信用卡資料。
信用卡資料
在美國,在信用卡資料做的比較大的一家是大家熟知的萬事達。 主要產品為-MasterCard SpendingPulse。主要覆蓋行業在汽車零售,百貨商場,超市,餐館,酒店等消費渠道資料。 因為像萬事達這樣的公司在支付行業是清算中心的角色,他們所拿到的資料一般只能看到每一單交易的金額,所以他們的資料通常無法跟蹤到具體的商品,但這種資料能跟蹤到某個渠道在銷售總額和訂單數。所以信用卡資料通常是用於研究消費類的渠道,商旅或休閒產業等非剛需消費板塊。
除了MasterCard的資料,其實很多像Mint這種提供Personal Finance服務的App也把自己的資料做成了產品在投資行業裡面銷售。由於所有的資料都是總量的子集,並且沒有一個數據源是百分之百無偏差的,所以不少的投資機構會購買幾種相似作用的資料來源,來進行交叉驗證,以保證判斷的準確性。
在中國,信用卡資料在2016年之前是一種非常優質的資料來源,但之後由於手機支付的迅速普及,國內的信用卡資料就在大部分型別的渠道監測上失去了作用,只在奢侈品店和高階酒店等客單價非常高的渠道上還有不錯的監測效果。
由此可見,資料質量跟資料的收集方式有很大關係,如果收集資料的渠道出現了變動,此資料來源將會出現巨大的變化,預測效果也會變差。這也是為什麼筆者一直強調深度理解資料來源對於後期分析的重要性。
另外需要強調的是,資料本身並不能預測任何股價走勢,但資料能幫助我們在一個新的角度去理解公司和行業,能補充我們認知的不足。資料也不能代替嚴格的基本面研究,因為缺乏了對公司和行業的基本認知,使用者並不能理解資料背後的含義。資料本身沒有太大的意義,只有經過了分析師處理和理解的數才會帶來價值。
在投資行業,大家普遍認為另類資料是一種新出現的資料型別,但事實上,另類資料的“新”只是對於投資行業的,這是因為它在初期被沉澱下來的目的並非為了服務投資者,而是為了實際業務的需要而產生的。 這樣的資料隨著時間的推移,積累到一定量的時候,就會產生出對公司、行業甚至宏觀經濟都能起到一定監測作用的資料集。
舉個例子, 目前全球最大的投資行業另類資料提供商-YipitData起初收集Groupon(美國一家團購網站)的資料其實不是為了賣給投資人。這家公司最初期的業務是給Yipit的會員傳送他們所關注的Groupon商品的打折資訊。為了收集Groupon上的打折資訊,Yipit用爬蟲程式獲取了絕大部分Groupon的商品銷售資訊。碰巧Groupon正好是一家美股上市公司,當一些對沖基金知道了有這樣的資料後,就找到了YipitData並花大價錢買下了Groupon的資料,因為個別的對沖基金分析師在當時就發現這樣的資料可以幫助他們更好的預測Groupon下一個季度的財務情況。YipitData管理層得到了這樣的啟發後,便把公司轉型成了一家專注為投資行業提供各種另類資料的公司。
所以,筆者認為另類資料其實並不是一種“新”的資料,大部分情況下這樣的資料並不新,它只是還沒有被投資行業所廣泛運用或者是沒有被人整理成投資行業能夠使用的形式。正是這樣的特性,使得另類資料比普通的財務和宏觀資料更難於發現和使用,但一旦被發現並被分析師研究出了合理的使用方法,另類資料將為投資帶來不錯的Alpha。
接下來我們從分類上對主要的兩種另類資料進行拆分,更好的理解這兩種主流的另類資料。
按照獲取方式來分:
Ø可以透過爬蟲從公開渠道獲取的資料;
Ø存放於商家、政府部門或第三方機構的資料;
爬蟲資料
先從爬蟲資料說起,爬蟲資料對於監測網際網路以及高度依賴網際網路做為渠道的公司都可以起到一定的監測效果。
大家可以看到,資料從網站上被收集下來後,呈現的狀態是處於原始狀態的,投資行業的大部分分析師是沒有能力對這種形式的資料進行處理的。所以這樣的資料是需要大量的資料分析員和工程師進行清洗和整合的。
以上只是一個非常簡單的舉例,但實際的爬蟲會面臨很多問題,是需要專業的工程師進行開發和維護的,並且高質量的資料庫架構,維護和資料清洗也是需要非常專業的技術人員與裝置的。對於分析師來說,不可能掌握所有的細節,但對於資料獲取和清洗有一定的認知對於用好另類資料是必不可少的知識。 在應用層面,我們可以透過分析某貓的資料監測到幾百家上市公司的部分終端消費情況以及某貓的母公司的GMV情況,對於投資研究來說,是很有意義的。
爬蟲可以獲取的資訊其實除了天貓這樣平臺,我們還可以透過收集某些單個公司頁面上的資料對公司的基本面進行跟蹤。比如美股上市公司好未來,由於其報名渠道已經基本在線上了,也就意味著絕大部分開班資訊都會展示在其官方頁面上。
我們可以提取出課程名,價格,地址,科目,是否滿班,學習中心數量等資訊。這樣我們可以測算出課程滿課率和公司的產能擴張進度等關鍵運營資訊。
我們可以透過資料分析,提前半年知道學而思產能忽然從春季的同比40%+增長降到了暑假的20%以下(暑期4月開始報名,公司10月下旬披露暑期業績)。
透過爬蟲能監測的公司有很多,我們這次就不展開寫了。接下來再介紹一種常見的另類資料來源-信用卡資料。
信用卡資料
在美國,在信用卡資料做的比較大的一家是大家熟知的萬事達。 主要產品為-MasterCard SpendingPulse。主要覆蓋行業在汽車零售,百貨商場,超市,餐館,酒店等消費渠道資料。 因為像萬事達這樣的公司在支付行業是清算中心的角色,他們所拿到的資料一般只能看到每一單交易的金額,所以他們的資料通常無法跟蹤到具體的商品,但這種資料能跟蹤到某個渠道在銷售總額和訂單數。所以信用卡資料通常是用於研究消費類的渠道,商旅或休閒產業等非剛需消費板塊。
除了MasterCard的資料,其實很多像Mint這種提供Personal Finance服務的App也把自己的資料做成了產品在投資行業裡面銷售。由於所有的資料都是總量的子集,並且沒有一個數據源是百分之百無偏差的,所以不少的投資機構會購買幾種相似作用的資料來源,來進行交叉驗證,以保證判斷的準確性。
在中國,信用卡資料在2016年之前是一種非常優質的資料來源,但之後由於手機支付的迅速普及,國內的信用卡資料就在大部分型別的渠道監測上失去了作用,只在奢侈品店和高階酒店等客單價非常高的渠道上還有不錯的監測效果。
由此可見,資料質量跟資料的收集方式有很大關係,如果收集資料的渠道出現了變動,此資料來源將會出現巨大的變化,預測效果也會變差。這也是為什麼筆者一直強調深度理解資料來源對於後期分析的重要性。
另外需要強調的是,資料本身並不能預測任何股價走勢,但資料能幫助我們在一個新的角度去理解公司和行業,能補充我們認知的不足。資料也不能代替嚴格的基本面研究,因為缺乏了對公司和行業的基本認知,使用者並不能理解資料背後的含義。資料本身沒有太大的意義,只有經過了分析師處理和理解的數才會帶來價值。