首頁>科學>

題目取得可能有點標題黨,但真實情況也差不多:相比隨機對照研究與佇列研究,“病例對照研究”的文章很難在頂級醫學期刊發表。

病例對照研究是醫學研究進行病因推斷的重要方法。它在醫學研究中,將研究物件分為病例組/ 對照組(更廣泛來說是,陽性組/陰性組) ,比較發病/陽性事件發生前接觸某暴露因素的狀況,比較暴露水平的差異性,初步分析暴露因素與陽性事件之間的因果關係。

比如,歷史上最有名的一個病例對照研究是,英國著名流行病學家Hill爵士在20世紀40年代發起的吸菸與肺癌的研究,他透過比較肺癌患者和非肺癌患者的過去的吸菸狀況,發現肺癌患者吸菸比例遠高於正常的人群,因此證明了吸菸(暴露因素)與肺癌(陽性事件)的因果關係。

但是病例對照研究存在著很多缺陷,導致這類研究的因果推斷結論不那麼可靠。

主要的問題有三點:(1)病例對照研究存在著回憶偏倚 (2)病例對照研究的暴露因素與結局的發生時間在順序上可能無法釐清,可能會出現因果顛倒(先發生結果,再出現原因) ;(3)暴露因素與結局的關係可能存在著干擾因素,很多人把干擾因素直接認定為混雜因素,透過迴歸分析來控制。但實際上,很多幹擾因素可能是中介變數,但病例對照研究很難區別中介還是混雜。

今天我要說的是12月初發表在BMJ的雜誌的論文,它用一張圖,成功地理清了暴露因素與結局、暴露因素與干擾因素的關係,當然最終贏得了審稿人的認可!

好,進入正題吧。

論文的概況與統計方法

2020年12月2日發表四大醫學頂級醫學期刊之一的BMJ (IF=30.223)發表了一篇病例對照研究 :“出生缺陷患者的癌症風險:基於北歐兒童、青少年和成人的病例對照大型研究” 。該研究就是研究“癌症----出生缺陷”兩個變數的關係。

為了探討出生缺陷與癌症發生之間的聯絡,該研究收集了四個北歐國家、總共62295例癌症病例和724542例對照樣本的出生缺陷和癌症診斷資訊,以兒童、青少年和成人 (0~46歲) 為研究物件評估出生缺陷與癌症型別的關係,癌症發生風險是否隨出生缺陷的數量而改變,並評估這些聯絡是否會持續到成年。

點評:這篇文章能發表,大樣本量是關鍵的原因之一。

統計分析方法

對於病例對照研究,logistic迴歸是不二選擇,同時計算OR值;由於癌症發生率很低,因此這裡的OR值幾乎等同於RR值。

論文的分析結果

(1)癌症患者的出生缺陷發生情況

本研究收集了四個北歐國家 (丹麥、芬蘭、挪威和瑞典) 1967至2014年間所有活產兒資訊 (出生情況及出生缺陷資訊等)、1943年以來的癌症患者資訊 (Table 1)。總研究人數為62,295例癌症患者 (其中2160例患有嚴重出生缺陷,佔3.5%),724542例對照樣本 (其中15,826例患有嚴重出生缺陷,佔2.2%)。

摘要:癌症患者,出生缺陷比例3.5%;對照組,出生缺陷比例2.2%,差別顯著。

(2)出生缺陷患者患癌症的總體風險

與沒有嚴重出生缺陷的人相比,有嚴重出生缺陷的人總體患癌風險增加 (OR=1.74)。

患有嚴重出生缺陷的人群中,染色體異常患者的患癌風險最高 (OR=5.53),遺傳綜合徵/微缺失綜合徵患者 (OR=5.44)、非染色體異常出生缺陷患者的癌症風險也較高 (OR=1.54)。此外,還觀察到患有眼睛、消化系統、泌尿器官、心臟、生殖器和四肢先天缺陷的人患癌症的風險增加。

(3)出生缺陷患者患特定癌症的風險

◆與沒有嚴重出生缺陷的人相比,非染色體異常出生缺陷的人群患泌尿器官癌 (主要是腎癌,OR=2.7)、周圍神經和自主神經系統癌 (OR=2.4)、中樞神經系統癌 (OR=2.3) 的相對風險最高。

◆ 染色體異常人群患淋巴組織癌和造血組織癌的風險增加,其中急性髓系白血病的風險最高 (OR=88)。

那幅圖來了

那麼,大家要那幅圖是怎麼回事?

其實,很多人採用logistic迴歸開展病例對照研究,一般是多因素logistic迴歸,而且最常見的方法是“先單因素後多因素”---先單因素logistic迴歸,將P值<0.02或者P<0.05的挑選出來,和出生缺陷一起開展多因素迴歸,探討出生缺陷和癌症發生的關係。

logistic迴歸分析中,除了缺失缺陷之外,其它的自變數可能是干擾因素,一般我們人認為是混雜因素。現在用logistic迴歸控制了混雜因素,似乎結果相對可靠。

對不對?諸位一直以來,可能就是這麼幹的!

來~~~~來個笑容

實際上,大家很多時候,忽視了一個重要的概念--中介變數,並在迴歸中錯誤地把它認為是混雜因素,並把它納入迴歸分析中。

我在這裡想告訴大家,迴歸分析時,千萬記住一句話:迴歸分析,混雜變數一定要納入模型,中介變數,一般不要納入模型。

在本病例對照研究,干擾因素中,既有干擾因素又有混雜因素。比如:混雜因素包括母親年齡、是否吸菸、是否試管嬰兒;而中介變數,則包括出生體重,早產等。

所以作者也說:我們不把中介變數納入到迴歸分析中。

那麼問題就來了,如何篩選混雜變數納入模型呢?

於是作者就搞了一張大家想看到的圖!DAG圖(有向無環圖)!

圖來了!

Ancestor oucome 就是中間變數!

這張圖闡明瞭作者因果推斷的思維方式,向審稿人交代了作者如何篩選混雜變數。

這張圖具有很重的份量,特別是對於病例對照研究,一個在充斥著各種中介和混雜變數的設計方法。

你認識它嗎?--有向無環圖(DAG):迴歸分析中自變數篩選的指導思想

諸位,我在這裡想說的是:病因推斷研究時,無論是採用佇列研究還是病例對照研究,我們首先得有個病因假設模型。任何直接上回歸的方法都是不可靠的研究。

特別是,當心中介變數對觀察性研究的干擾!

13
最新評論
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 生命的真正起源,生命不是進化也不是神造