-
1 # 蘭大風馬牛
-
2 # 橫掃toutiao黑惡勢力
今天我來給大家介紹一下統計學,重點介紹一下統計學的弊端。
一.為什麼要了解統計學,對於普羅大眾來說,統計學應該會成為每人必備的常識,才能避免被越來越精緻的數字陷阱欺騙。起碼當你看到各種百分比和收益率,能多出一份警覺,多思考些他們的來源和計算途徑。
對於網際網路工作者來說,統計知識投射在網際網路上,就是資料相關的方法論。舉例來講,現在盛行的 A/B Test 本質上就是控制變數法實驗中的一種。不同的是,網際網路獲取資料更簡單,進行對比實驗更方便。這將是一個統計學/資料分析的大事件。想象一下 Facebook 內部幾千個 A/B Gate,簡直稱得上一場史無前例的大規模人口社會實驗。
這也是為什麼近些年來 Growth Hacker ,Data Scientist 越來越火的原因。資料量的極易獲取,計算儲存成本的降低和分析效率的提升,使得統計分析的成本更低,規模更大,從而輸出價值更高。
統計和分析的差別,個人理解上,統計分析應該是整個資料流程的不同部分。統計在於工具或手段,分析更偏重理念。比如迴歸分析為什麼叫分析不叫統計,就是因為其中已經包含了部分歸因的思想。再舉個栗子,決定對一批資料取平均數還是中位數,這是統計,該怎麼利用,是分析。
統計指標各有利弊,透過選擇合適的統計指標,來精準表達資料集的內容。同時也需要防止有人利用這些指標的優缺點來誤導輿論,影響你的決策。
1.平均數,中位數,四分位數,平均數對極值敏感而中位數不會。所以北京的同學們經常會感覺自己的薪資收入拖慢了集體的後腿....但如果看中位數和四分位數,可能情況就會大不相同。
2.絕對值,比率值,註冊數是絕對值,註冊率是比率值。比率值出現異常時,需要首先關注分子和分母的情況。比如說,某天發現網站 UV 周同比上漲了 500%,有可能是上週基數太低導致的。如果一上來就從維度進行細分,很容易跑偏。
3.百分比,百分差,百分率,百分比是個常見的資料表達形式,其中貓膩也比較多。此類數字往往需要注意分母和分子的差別。以下是兩個常見例子:1,一件貨品先降價15%再漲15%價格是否一樣?2,對於百分差和百分率,稅率從3%漲到5%,可以說上漲了2個百分點,也可以說上漲了67%,給人感覺效果大不一樣。
4.指數型資料,即透過各項資料計算得出來的指數,優點在於將所有資訊濃縮成一個數字,簡單易懂,但容易忽略其中成分資料的影響。美團外賣當初有個很複雜的考核城市使用者體驗的指標,就是個很好的例子。透過多項資料的整合,我們很好地把使用者體驗這種比較虛的東西落到了實處。不過需要注意的是,對它的過分依賴容易帶來誤導性的結論。
坑二:統計背景不夠明確,首先要了解:精確和準確是有本質差別的。如在你內急的時候我告訴你公廁在你右邊直走134.12m處,這很精確。不過實際上,廁所在左邊。準確的要義是要能讓指標貼近所描述事物。
這需要在衡量事物的指標上達成統一。如在之前 20011 年時有爭論:美國製造業是否正在衰退?從總體產出上看,從 2000 年來看一直在增長,而製造業的就業數卻在下降。因此需要統一指標來表述製造業的繁榮情況。
就像電商一樣,需要明確自己當前關注的唯一核心指標,如訂單數,交易額等。不同的關注會導致公司戰略上的不同。
第三確定指標後,需要確定描述主體。同樣是房價,政府說我們今年有60%的城市,房均價比去年低!你們買房有希望了!但實際上,40%的房子都漲價了,且都集中在核心城市。P 民們照樣買不起房子。利用統計學手段可以影響人們的解讀:擷取有利時間段,混淆單位等
坑三:統計指標也有偏見,在選擇樣本和進行統計分析時,會存在各種各樣的偏見,導致結果失之毫釐,謬以千里。
選擇性偏見:選擇了錯誤的樣本,得到的分析結論自然是錯的。如在第三季矽谷裡,Richard 對自己的開發者朋友們釋出了 Beta 版,好評如潮。但因為其上手難度太高,普通使用者根本用不了,最後註冊使用者雖有百萬之巨,但活躍使用者卻寥寥無幾。同樣的,在對電商使用者習慣做分析時,一二線城市和三四線城市的消費水平和習慣肯定有所差異,選擇單獨一種都會有失偏頗。
發表性偏見:學術研究或新聞更樂於發表肯定性結論而非否定性。一個打遊戲不會引發癌症的研究,肯定不如證明當 PM 會導致壽命更短的實驗更受關注。
記憶性偏見:人們會因為結果修改自己的記憶,如很多成功人士會在失敗後將原因歸咎於某個因素,並將其放大成關鍵原因。但事實上可能並非如此。
倖存者偏見:透過挑選樣本來操控資料。簡而言之,對於那些下單成功的使用者數來講,他們的註冊成功率是 100%。在日常分析中,需要時刻警惕這種偏見的變異版本。
坑四:慎重選擇統計實驗,在研究事物的相關性時,控制變數實驗是個比較科學的做法。在現實生活中,一些變數很難甚至無法控制,此時便需透過各種統計實驗來逼近這種效果。
隨機控制實驗:隨機抽取樣本,隨機分配實驗組和對照組。這便是最理想的 A/B Test,核心在分桶策略。
自然實驗:利用已有資料營造近似的隨機實驗,如在 O2O 城市運營中,很難長期控制城市去做實驗要求的推廣活動來對比哪種更有效。合適的方法是從已有的資料中,挑選情況類似活動不同的城市來進行對比分析。
差分類差分實驗:利用時間和空間上的對比來控制變數,如美國曾經在研究受教育年齡對壽命的影響實驗中,分析了田納西州在教育改革時間前後資料的變化,以及和相鄰州對比情況。
非連續分析實驗:選擇條件類似但結果不同的樣本,進行對比分析。如選擇一批犯罪情況類似的青少年,一組需要送去監獄而另一組剛好免除牢獄之災,透過對這兩組人的分析來研究坐牢對青少年後續犯罪率的影響。
-
3 # 非凡圓月vS
就是一旦形成指標,人們就會為了指標而行動,導致數字不但沒有反映、而且會扭曲真實世界。
. 比如說,某醫院給醫生制定的考核指標是手術成功率,誰成功率高就能獲得獎金,那請問醫生會怎麼做呢?醫生也許會故意不給重症患者做手術,因為重症患者的手術失敗率高。
所以結論來了,“統計數字只有反映現實的意義,而不能用它來指導現實。現實是在每一個具體的經歷中做出來的。”
這個提醒非常有價值,所有的數字,都值得我們看兩遍,一遍看它反應了什麼,一遍看它可能扭曲了什麼
-
4 # 風扇意思
統計學本身是一個非常靈活的學科,真正符合“具體問題具體分析”這樣的一個哲學理念。即使是同樣的指標,在不同場合下所選用的方法也可能不同。單說一個簡單的方差分析,就因不同的設計型別需要採用不同的分析方法。甚至於同一批資料如果目的不同,其方法與結果也是不同的。
2/4
大多數人最頭疼的問題應該是:對於一批資料,不知道到底應該選用什麼方法。儘管各種方法應用的前提條件背了一堆,但好像每個都像,每個又都不像。感覺好像用哪個方法也行,就是不知道哪個方法更準確。對於這樣的問題,確實沒有什麼好辦法能解決。正像醫學生剛畢業時判斷不準疾病一樣,只能靠經驗積 累。
3/4
目前的醫學統計學教材大都是一個模式,冷冰冰的框架,沒有一點人性化的詞語,全是一些讓人摸不著頭腦的話語。實際上,這也正是目前醫學統計學領域的悲哀,真正有水平的人很少,大多都是似懂非懂,缺乏分析的經驗,寫書時只能是照搬,相互抄來抄去,最終導致所有的醫學統計學教材都是一個面孔。
4/4
目前是學術界煩躁的一個時期,沒有多少人能夠耐住寂寞地真正研究理論。多數人都只是學了一知半解,就自封為“專家”、“人才”。帽子很大,學問不多。也有很多人能夠學習理論,但是又不能結合實際 脫離實際問題,沒有真正的效益。統計學是一門方法學,本身也在不斷地發展,真正想要掌握統計,必須不斷地學習新知識,同時應不斷地應用,只有在應用過程中才能真正地學會並理解。目前國內醫學統計領域真正的高手已經越來越少,主要就是因為大多數人都很難沉下心來仔細研究統計學方法的進展和應用。如果自己都對統計學不瞭解,如何談得上教授學生,結果必將是讓學生更加糊塗。
-
5 # 使用者5392674504881
1)統計學一級學科體系的建設尚須完善。統計學被教育部專業新目錄列為一級學科,這是統計學順應歷史潮流,與國際接軌的重要舉措。
但這方面的宣傳力度不夠,甚至仍有許多統計教師認為理科的統計學就是數學,仍然不肯放棄前蘇聯文科式的統計學,甚至有相當一部分教師認為應將統計學改回到原來的經濟學下屬的二級子學科
-
6 # 比目魚025
目前國家由於人才的增長率較高,已經打破了以 往的統一分配,而改為雙向選擇、自主擇業。統計學專業也是一樣,這種比較靈活的就業政策,給了大學生選擇的機會,可以根據自己的條件和志趣,自主 地擇業。
學統計學的弊端,就是有人要失業。因而也無形中增加了擇業的競爭壓力。統計學專業畢業的學生就業形勢很嚴峻,社會需求量接近於飽和狀態。
-
7 # 抖音小王子
我當年學的時候學過一點統計學,還是比較實用的,會涉及到數學的東西,如果數學不好學起來會比較吃力。
如果你是大學專業想選統計學的話也可以,以後畢業找一個專業性強點的工作也不錯哦 和數學差不多
-
8 # 使用者6383751383610
因為有些函式雖然在某點處導數等於零,但是在這個點在這個點的左右兩邊增減性並不是不同,這個點並不是極值點。所以根據機制點求引數,一定要檢驗。
-
9 # 五個
因為極值有極大值和極小值之分,導數為零的點不一定就是題幹中極大值或者極小值 甚至有可能是拐點處的值
回覆列表
1.學習難度比較大,需要學好多數學的專業課,掛科率比較高,容易打擊信心
2.對學歷要求高,一般本科生找不到很好的專業,畢竟能力有限,一般要繼續讀碩士和博士