引言
問題一:如果你生於1999年5月,那麼2000年11月1日你是幾週歲?
答:1週歲。
恭喜你,答對了。
問題二:那麼2010年11月1日你是幾週歲?
答:11週歲。
恭喜你,答對了。
問題三:根據第五次人口普查結果,2000年11月1日全國有11,495,247個1週歲的兒童,那麼第六次人口普查的2010年11月1日,全國應該有多少個11週歲的兒童?
答:大概也是1100多萬,因為不排除2000-2010年期間有極少數兒童早夭了,剩下的都會存活到2010年。
抱歉,雖然你的邏輯很正確,但是你答錯了。實際根據第六次人口普查的結果,有13,935,714個11週歲的兒童。
一、第七次人口普查數據公佈歷程
1、2019年11月-2020年10月,開展了第七次人口普查。
2、2021年5月11日,初步公佈了一些“主要數據”。
3、2021年10月24日,管老師查詢統計局官網,未發現第七次人口普查數據。
4、2021年11月29日,管老師在過去半年期間天天刷新統計局官網的頁面,終於盼來了,這個頁面上有第五次人口普查數據、第六次人口普查數據,以及第七次人口普查……主要數據?
這裡做個解釋。統計主要數據,指的是經過原始數據處理後,供公眾查閱的數據,這次發佈的主要數據,和2021年5月11日在各大媒體上公開的數據,基本沒有什麼區別。
而統計數據,不加“主要”兩個字,指的是原始數據。而這些數據,因為更基本,數據量更龐大,所以可以挖掘的內容很可觀。同樣的,主要數據,因為數據量較少,造假難度較低;而不加“主要”兩個字的數據,因為數據量更龐大,造假難度極高。
二、統計數據可以多離譜
文章開頭講了,第五次人口普查(2000年,下稱“五普”)的時候,一個人1歲了,那麼第六次人口普查(2010年,下稱“六普”)的時候,這個人應該11歲。這就是人口統計的延續性原理。同樣是統計,因為經濟不存在嚴格的延續性,所以基本上怎麼注水都行。但是人口不行,你現在統計到的11歲人口,10年前必然是1歲的;10年前就那麼點1歲人口,10年後突然憑空出現了一堆11歲人口,這是非常不正常的。
(一)我們先來看五普和六普之間的延續性塌陷
這個表怎麼看呢?
1、首先,紅色字的部分為統計局公佈的原始數據。最左側的出生日期,是根據普查時的年齡估算的。比如五普時年齡為1歲的,其生日在1998年11月2日-1999年11月1日,為簡化這裡就以1999年做代表。
2、從左邊數第四列,這是根據各次人口普查的《死亡》表估算的,五普時的某個年齡人口,有多少能存活到六普。計算過程也不是很複雜,會用到保險公司常用的生命週期表,但也都是小學數學的程度,但是礙於篇幅此處不講那麼細了。
3、最右邊這一列,這是計算六普時統計的各年齡人口,和第四列的差值。按說這兩個值應該非常接近,抽樣10%的樣本、偏差在1%以內是可以接受的。但是:
兩次人口普查同時統計出的1989-2000年出生的人,六普生生多統計出了2003萬人!這是什麼概念?假設六普的數據是準確的,這相當於是五普少統計出足足8.7%的人口,這完全不能用統計偏差來解釋了。
(二)我們接下來看六普和七普之間的延續性塌陷
相同的邏輯不用講第二遍了。我們再欣賞一下這個表:
1、2001-2010年出生的人。七普比六普多統計出了1193萬人,假設六普的數據是準確的,相當於七普多統計出8.2%的人口。
2、1989-2000年出生的人。剛才說了六普比五普多統計出了2003萬人,而七普比六普又少統計出了1026萬人。
3、1970-1985年出生的人。六普比五普多統計出343.6萬人,統計誤差1%還算符合邏輯;而七普比六普少統計出748.3萬人,雖然統計誤差也只有2.2%,但這個誤差已經是個很大的數字了。因為數據這個東西,獨立一組數據很難說準確性,但是一組延續性的數據已經經歷了兩次驗證,這次又發生了比較大的偏差,而且每一個年齡都有偏差,這就不能用奇怪來掩蓋。
三、哪次人口普查的數據靠譜?
先說結論:哪次都不靠譜。
我們來梳理通過以上簡單的分析得出的兩個主要疑點:
1、1989-2000年出生的人,六普比五普多了2003萬人,七普比六普少了1026萬人。
2、2001-2010年出生的人,七普比六普多統計出了1193萬人。
但是你如果足夠了解當代史,可能就不會很疑惑。
1.1、五普統計出的兒童數量少,是為了證明計劃生育卓有成效。
1.2、通過五普數據導出的計劃生育卓有成效結論,各地、各相關部門已經吃了慶功酒,六普數據把數據還原為原始數據也無所謂,反正政績有了、輕功酒吃了、官升了,你這會兒掀桌子也沒用了。
1.3、另一方面,五普到六普期間,義務教育的經費撥款是按人頭算的,很多地方大面積利用本不存在的孩子吃空餉,就必須活活製造出這些孩子出來,這些“孩子”需要有檔案,向前倒就能倒到他們的出生。
1.4、七普向下修正的這1026萬人,主要是1989-1995年出生的人,這部分人恰好是現階段的生育主力。另一撥人通過在紙面上減少種公、種母的數量,給當前的生育率下降找藉口。
2.1、六普到七普期間,國家的生育政策發生了90°的小轉彎,從限制生育到不那麼限制生育。想讓育齡男女繼續給國家貢獻人肉電池,就需要營造一個,最近20年的新生人口數量尚可的假象。因此,對2001-2010年,尤其是2007-2010年的統計數字,進行了超級大幅度的調整,平均調整幅度高達14.9%,比起正常誤差的1%高出十幾倍。
3、這裡還有一組數據,就是2015年的人口小普查,當時統計的2011-2015年出生人口為8023萬,結果到了2020年的七普,統計的2011-2015年出生人口變成了9024萬,又多出1000萬,向上調整了12.5%左右。
我反覆強調,1%是統計學允許的正常誤差,也可以說是統計學允許的最大誤差,因為你基數在這裡,而且抽樣比例相當高(普查是10%,也就是1.3億人,小普查是1%,也就是1300萬人),1%的誤差已經相當高了。但是看過這幾次的人口統計,統計偏離接近或超過10%的區間用一隻手已經數不過來了,如此高的偏離,叫誤差真是侮辱統計學和數學,叫“塌陷”是最合適的。造成這些塌陷的原因,通過這一段的分析我想你也瞭解了。
所以最後留一個問題:七普數據中,2016-2020年出生的人口有7788萬,2021年出生的人口有1062萬,你信嗎?