昨天雙十一,本來大夥興高采烈地去剁手,結果硬生生的被淘寶上了一堂數學課,淘寶套路太多也遭到了很多人的吐槽,大夥都說淘寶提高了全中國人的數學水平,最後天貓雙十一成交2684億元,比去年增長了25.7%,吐槽歸吐槽,錢包還是很老實的。
雙十一快要結束時,小組刷到一條很紅的微博,有人統計了雙十一的銷售資料,發現這些銷售額可以用一些迴歸曲線來完美擬合,他推斷淘寶對資料進行了修飾,並且預測2019年的銷售額為2675億或者2689億元,現在看來,這個預測十分接近。那麼,我們不禁要發出疑問:這真的是巧合嗎?
天貓的公關總監在朋友圈做出了一個迴應,並表示:造謠要負法律責任。小組想了想,這樣的威脅其實完全沒有必要,大家講講道理就行了,反正已經被淘寶強制上了一節數學課了,也不介意再多上一節。。。
圖片來源:電視劇《巾幗梟雄之義海豪情》
小組回憶了一下以前在學校學的統計學知識,很多資料的分佈其實都在客觀上符合某些統計規律。
像中國成年人的身高,絕大多數都在平均值1.7米上下,在統計學上符合正態分佈的規律,會同時出現姚明、黃曉明和郭敬明,但是不會出現10米巨人或者是七個小矮人這種極端值,“不要你覺得,也不要黃曉明覺得”,這就是客觀的統計規律。
反應快的小夥伴可能會立即想到,馬雲的身家有2701億,但是大部分的人身家都不夠在京滬買一套房,這樣的收入分佈好像並不符合正態分佈啊。沒錯,收入的分佈符合的是另外一種規律——冪律分佈。
時間回到19世紀,義大利經濟學家帕累託在研究個人收入的統計分佈時,發現少數人的收入要遠多於大多數人的收入,於是他提出了那個著名的二八法則:20%的人佔據了80%的社會財富。
類似的現象還有很多,比如全世界國家GDP的分佈、視訊網站上的視訊點選量分佈、論文被引用的次數的分佈等,在統計學中,這些現象被抽象成了冪律分佈,在分佈圖上,它表現為一條拖著長長尾巴的曲線。我們用股市裡面的一些資料,帶大夥看看這種規律。
我們先來看看食品飲料行業的96家公司的市值分佈,市值最大的茅臺就佔到了這個行業總市值的39%,前十大公司市值佔比接近80%,如果我們用一個冪函式來擬合他們的市值分佈,就會發現解釋度高達97.88%。
我們再來看看財富的分佈,將中國富豪前100名的財富值排列在一起,你會發現排名最靠前的那些富豪還是佔據了大多數財富,還是符合冪律分佈。
這個規律放在全世界的範圍內都是成立的,大夥可以看看全球富豪榜前100名的財富分佈情況。
說了這麼多,就是想告訴大夥,統計規律是普遍存在的,用一個函式去擬合淘寶雙十一的銷售額,其實並不能證明淘寶的銷售資料在造假,我們可以用同樣的擬合方法去看看A股的情況。
下面我們就去看看A股市值最大的前1000家公司過去10年的營業收入,是否符合某種規律。我們用簡單的二次函式去擬合,過程有點枯燥乏味,就不多陳述,得到的結果根據R2排序,R2越大,意味著函式的擬合效果越好,也就是說這些公司的銷售收入在客觀上符合某種“巧合”,其中前50家依次是:
我們將其中解釋度最高的前五家單獨列了出來,並根據擬合的函式簡單的預測了一下這些公司2019年銷售收入,大夥可以等到年報披露時,來看看這些擬合效果如何: