首頁>科學>

弗朗切斯科·卡薩萊尼奧(Francesco Casalegno)

5分鐘閱讀

> Paradoxes contradict our expectations. Photo by Greg & Lois Nunes on Unsplash.

在任何資料科學應用中,觀察偏差和亞組差異很容易產生統計悖論。因此,忽略這些因素會完全破壞我們的分析結論。

觀察到令人驚訝的現象,例如在彙總資料中完全還原的子組趨勢,的確不罕見。在本文中,我們研究了資料科學中遇到的三種最常見的統計悖論。

1.伯克森悖論

第一個引人注目的例子是觀察到的COVID-19嚴重程度與吸菸之間的負相關性(例如,參見Wenzel 2020年的歐盟委員會審查)。吸菸是呼吸系統疾病的眾所周知的危險因素,那麼我們如何解釋這種矛盾呢?

最近在《自然》雜誌上發表的2020年格里菲斯(Griffith 2020)的工作表明,這可能是Collider Bias(也稱為Berkson悖論)的例子。為了理解這一悖論,讓我們考慮以下圖形模型,其中包括第三個隨機變數:“正在住院”。

Berkson’s Paradox

Berkson’s Paradox: “hospitalization” is a collider variable for both “smoking cigarettes” and “COVID-19 severity”.

第三個變數“正在住院”是前兩個變數的對撞者。這意味著吸菸和嚴重COVID-19都會增加在醫院生病的機會。當我們以對撞機為條件時,即當我們僅觀察住院患者的資料而不考慮整個人口時,伯克森悖論恰好出現。

讓我們考慮以下示例資料集。在左圖中,我們觀察到了整個人群,而在右圖中,我們僅考慮了一部分住院患者(即,我們以對撞機變數為條件)。

> Berkson’s Paradox: If we condition on the collider “hospitalization”, we observe a reversal in the relation between smoking and COVID-19! (Image by author)

在左圖中,我們可以觀察到COVID-19嚴重程度與吸菸之間的正相關關係,因為我們知道吸菸是呼吸系統疾病的危險因素,因此我們可以預期。

但是在正確的數字上(我們只考慮住院患者),我們看到了相反的趨勢!要理解這一點,請考慮以下幾點。

嚴重程度較高的COVID-19會增加住院的機會。特別是,如果嚴重程度大於1,則需要住院治療。每天抽幾支煙是多種疾病(心臟病,癌症,糖尿病)的主要危險因素,由於某種原因,這些疾病增加了住院的機會。因此,如果住院患者的COVID-19嚴重程度較低,則他們吸菸的機會更高!實際上,他們必須患有與COVID-19不同的某種疾病(例如心臟病,癌症,糖尿病)以證明其住院治療的合理性,而這種疾病很可能是由吸菸引起的。

這個例子與伯克森1946年的原始工作非常相似,作者發現醫院患者的膽囊炎和糖尿病之間存在負相關關係,儘管糖尿病是膽囊炎的危險因素。

2.潛在變數

潛在變數的存在還可能在兩個變數之間產生明顯相反的相關性。儘管伯克森的悖論是由於對撞機變數的條件而出現的(因此應避免使用),但可以透過對潛變數的條件來解決另一種悖論。

例如,讓我們考慮一下撲滅火災的消防員人數與火災中受傷人數之間的關係。我們希望擁有更多的消防員會改善結果(在某種程度上,請參見布魯克斯定律),但是在彙總資料中卻發現存在正相關關係:部署的消防員越多,受傷人數越多!

為了理解這種矛盾,讓我們考慮以下圖形模型。關鍵是再次考慮第三個隨機變數:“火災嚴重性”。

> Latent Variable Paradox: “fire severity” is a latent variable for both “n of firefighters deployed” and “n of injured”. (Image by author)

該第三潛在變數與其他兩個正相關。確實,更嚴重的火災往往會造成更多的傷害,同時又需要更多的消防員被撲滅。

讓我們考慮以下示例資料集。在左圖中,我們彙總了來自各種火災的觀測值,而在右圖中,我們僅考慮了與三個固定程度的火災嚴重性相對應的觀測值(即,我們將觀測值設定為潛變數)。

> Latent Variables: If we condition on the latent variable “fire severity”, we observe a reversal in the relation between number of firefighters deployed and number of injured people! (Image by author)

在右圖中,我們根據火勢的嚴重程度對觀測值進行了條件調整,可以看到我們期望的負相關。

對於給定的嚴重程度的火災,我們確實可以觀察到,消防員部署的越多,受傷的人就越少。如果我們著眼於嚴重程度較高的火災,即使部署的消防員人數和受傷人數都較高,我們也會觀察到相同的趨勢。3.辛普森悖論

當在子組中始終觀察到趨勢時出現辛普森悖論,這是一個令人驚訝的現象,但是如果合併子組,則趨勢會反轉。它通常與資料子組中的類不平衡有關。

這個悖論的一個臭名昭著的發生是在比克爾(Bickel)1975年進行的,當時對加利福尼亞大學的錄取率進行了分析,以發現性別歧視的證據,並揭示了兩個明顯矛盾的事實。

一方面,他觀察到每個部門的女性申請人的錄取率均高於男性申請人。另一方面,總數表明,女性申請人的錄取率低於男性申請人。

為了瞭解如何做到這一點,讓我們考慮以下兩個A部門和B部門的資料集。

在100名男性申請人中:接受了A部門申請的80名和68名(85%),而接受B部門申請的20名和12名(60%)被接受。在100名女性申請人中:接受了A部門申請的30名和28名(93%),而接受B部門申請的70名和46名(66%)被接受。

悖論由以下不等式表示。

Simpson’s Paradox: The inequalities behind the apparent contradiction.

現在,我們可以瞭解我們看似矛盾的觀察的起源了。關鍵是在兩個部門中,每個部門的申請者的性別存在嚴重的失衡(部門A:80–30,部門B:20–70)。確實,大多數女學生申請了競爭更激烈的B部門(錄取率較低),而大多數男學生則申請了競爭較弱的A部門(錄取率較高)。這導致了我們的矛盾觀察。

結論

潛在變數,對撞機變數和類不平衡會在許多資料科學應用程式中輕易產生統計悖論。因此,必須特別注意這些關鍵點,以正確得出趨勢並分析結果。

18
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 你聽說過機械電池嗎?此項技術或許顛覆了已知的電力系統