阿里造假了？？？尋找資料的真相

首頁>科技>摸魚小組張江群眾2019-11-13 10:36

昨天雙十一，本來大夥興高采烈地去剁手，結果硬生生的被淘寶上了一堂數學課，淘寶套路太多也遭到了很多人的吐槽，大夥都說淘寶提高了全中國人的數學水平，最後天貓雙十一成交2684億元，比去年增長了25.7%，吐槽歸吐槽，錢包還是很老實的。

雙十一快要結束時，小組刷到一條很紅的微博，有人統計了雙十一的銷售資料，發現這些銷售額可以用一些迴歸曲線來完美擬合，他推斷淘寶對資料進行了修飾，並且預測2019年的銷售額為2675億或者2689億元，現在看來，這個預測十分接近。那麼，我們不禁要發出疑問：這真的是巧合嗎？

天貓的公關總監在朋友圈做出了一個迴應，並表示：造謠要負法律責任。小組想了想，這樣的威脅其實完全沒有必要，大家講講道理就行了，反正已經被淘寶強制上了一節數學課了，也不介意再多上一節。。。

圖片來源：電視劇《巾幗梟雄之義海豪情》

小組回憶了一下以前在學校學的統計學知識，很多資料的分佈其實都在客觀上符合某些統計規律。

像中國成年人的身高，絕大多數都在平均值1.7米上下，在統計學上符合正態分佈的規律，會同時出現姚明、黃曉明和郭敬明，但是不會出現10米巨人或者是七個小矮人這種極端值，“不要你覺得，也不要黃曉明覺得”，這就是客觀的統計規律。

反應快的小夥伴可能會立即想到，馬雲的身家有2701億，但是大部分的人身家都不夠在京滬買一套房，這樣的收入分佈好像並不符合正態分佈啊。沒錯，收入的分佈符合的是另外一種規律——冪律分佈。

時間回到19世紀，義大利經濟學家帕累託在研究個人收入的統計分佈時，發現少數人的收入要遠多於大多數人的收入，於是他提出了那個著名的二八法則：20%的人佔據了80%的社會財富。

類似的現象還有很多，比如全世界國家GDP的分佈、視訊網站上的視訊點選量分佈、論文被引用的次數的分佈等，在統計學中，這些現象被抽象成了冪律分佈，在分佈圖上，它表現為一條拖著長長尾巴的曲線。我們用股市裡面的一些資料，帶大夥看看這種規律。

我們先來看看食品飲料行業的96家公司的市值分佈，市值最大的茅臺就佔到了這個行業總市值的39%，前十大公司市值佔比接近80%，如果我們用一個冪函式來擬合他們的市值分佈，就會發現解釋度高達97.88%。

我們再來看看財富的分佈，將中國富豪前100名的財富值排列在一起，你會發現排名最靠前的那些富豪還是佔據了大多數財富，還是符合冪律分佈。

這個規律放在全世界的範圍內都是成立的，大夥可以看看全球富豪榜前100名的財富分佈情況。

說了這麼多，就是想告訴大夥，統計規律是普遍存在的，用一個函式去擬合淘寶雙十一的銷售額，其實並不能證明淘寶的銷售資料在造假，我們可以用同樣的擬合方法去看看A股的情況。

下面我們就去看看A股市值最大的前1000家公司過去10年的營業收入，是否符合某種規律。我們用簡單的二次函式去擬合，過程有點枯燥乏味，就不多陳述，得到的結果根據R2排序，R2越大，意味著函式的擬合效果越好，也就是說這些公司的銷售收入在客觀上符合某種“巧合”，其中前50家依次是：

我們將其中解釋度最高的前五家單獨列了出來，並根據擬合的函式簡單的預測了一下這些公司2019年銷售收入，大夥可以等到年報披露時，來看看這些擬合效果如何：