首頁>健康>

沒有臨床試驗P值=0.06,還能發表嗎?老闆:那投個JAMA試試吧。不料,JAMA雜誌還真給發表了。

影響因子高大40分的醫學四大頂級期刊《美國醫學會雜誌》,發表了一篇P=0.06的臨床試驗。你能接受嗎?

如果你是研究者,你的資料經統計學分析發現,P值大於0.05,會不會心灰意冷呢?特別是P=0.06時,簡直一口老血要噴出來。陰性結果!但是就差那麼一點。

氣不氣人!

但JAMA還是發表了。P值不能說明一切.

這是一項眼科手術的臨床試驗,由美國哈佛大學Jennifer K. Sun聯合夏洛特眼耳鼻喉協會Andrew N. Antoszyk團隊主持,他們比較了玻璃體內注射阿柏西普與全視網膜光凝玻璃體切除術治療增殖性糖尿病視網膜病變玻璃體出血的療效。

為了比較玻璃體內注射阿柏西普與全視網膜光凝玻璃體切除術治療增殖性糖尿病視網膜病變玻璃體出血的療效,2016年11月至2017年12月,研究組在美國和加拿大的39個DRCR視網膜網路機構進行了一項隨機臨床試驗,招募了205名因增生性糖尿病性視網膜病引起玻璃體出血而導致視力喪失的成年人。2020年1月完成最終隨訪。

將參與者隨機分組,其中100名接受玻璃體內注射阿柏西普治療,105名接受玻璃體切除術並進行視網膜光凝術。被分配給阿柏西普的參與者最初接受了4個月的注射。主要結局指標是治療24周的平均視力字母評分(範圍為0-100;評分越高表示視力越好),該研究能夠檢測出8個字母的差異。

205名參與者的平均年齡為57歲,男性佔56%,平均視力字母得分為34.5分,95%完成了24周的隨訪,90%完成了為期2年的隨訪。主要結局指標中,阿柏西普組患者24周時的平均視力字母得分為59.3分,而玻璃體切除術組中為63.0分,差值為−5.0[95%CI,−10.2 to0.3],P = 0.06,差異沒有統計學意義。

以下是主要結果的的表格:

在23項次要結局中,有15項沒有顯著差異。其中,在第4周時,阿柏西普組的平均視力字母得分為52.6分,顯著低於玻璃體切除術組(62.3分);2年後兩組平均視力字母得分分別為73.7分和71.0分,差異沒有統計學意義。

因此,研究結果表明,對於因增生性糖尿病視網膜病變而導致眼玻璃體出血的患者,採用玻璃體腔內注射阿柏西普或玻璃體切除術聯合全視網膜光凝治療,24周時的平均視力字母評分在統計學上並無差異。

陰性結果?怎麼辦?怎麼解釋?

於是,作者最後說:

However, the study may have been underpowered, considering the range of the 95%CI, to detect a clinically important benefit in favor of initial vitrectomy with panretinal photocoagulation.

他的意思是,JAMA雜誌呀,這真能不能怪我,你看效果是在的,就是可能運氣不好造成的,你看兩組差距還是很明顯的,是不是?

JAMA雜誌

哈佛大學的研究者,自己人,運氣太差而已,照樣發表(中國人當然沒門了)。

運氣:

想問問讀者,這鍋我背不背?

鄭老師:

該背!作者希望你給他好運氣,誰讓你把壞運氣給他呢?

言歸正傳,論P=0.06如何形成?

P>0.05,原因有兩點:樣本量不夠、運氣太差。前者是作者的鍋,後者是運氣的鍋。

沒有統計學差異,往往是兩者共同造成。

一般來說,樣本量足夠大,往往總會體現出差異來。不同治療措施總是有差別的嘛。但是樣本量不能無限大,誰也吃不消。因此,我們研究基於檢驗效能計算樣本量,最終一般檢驗效能是0.8上,最好是0.9以上。檢驗效能可以通俗理解為得到一個<0.05的P值的機率。檢驗效能越高,越容易得到一個<0.05結果。不過,越高的檢驗效能,要求樣本量越大。

這裡的檢驗效能定0.8 還是0.9,就是研究者的鍋。你說幹嘛定0.8的檢驗效能?作者說,我能力有限,資金有限,團隊小。。。。這不是你的鍋嗎?

另外,可能很多時候研究者高估了療效(也就是組間的差異,本例差異是8個字母的差異)而導致樣本量不足。這也是研究者的鍋。

當然,運氣也要背鍋。因為檢驗效能不可能到達100%,因為那需要超大樣本量,這不現實。因此,總有可能,哪怕小機率,得不到一個<0.05的結果。

一般情況下,如果研究者沒有高估研究效應而檢驗效能又在90%以上,那麼都是運氣的鍋。無論如何,還有10%的可能性,因為運氣不好,抽到了一個不太好的樣本, 造成了陰性結果。

那麼本例呢?80% power! 80%檢驗效能,因此最後的陰性結果,研究者是有責任的。

當然,由於80%檢驗效能是臨床研究所認可的一個值,JAMA能夠發表也沒有錯。但鄭老師認為,這樣的結果還是差了那麼點意思。

如果P>0.05,我們怎麼辦?

世界上任何一個雜誌都更喜歡陽性、即P<0.05的結果。雖然,P>0.05仍然可以發表,但總是雜誌要稍微低一檔次,本來JAMA能發表的,只能發表在它的子刊。

但總得發表吧,或者畢業時,答辯時,總得跟專家們解釋吧?

首先,如果你沒有計算過樣本量,那我們話題還是到此結束吧。。。

如果,因為你高估了組間的療效而造成陰性結果。這事無論主觀還是客觀,請你放心,沒有幾個專家能夠看出來你的高估行為。你可以說你運氣不好,檢驗效能不高,但是你的不嚴謹,終有一天會釀成苦果。

鄭老師的建議

P值不能說明一切。一個嚴謹設計的醫學研究,無論結果好壞,審稿人都能接受這一結果。

但是當你為了完全不考慮樣本量,或者為了控制樣本量採取了一些措施(而非規範設計而計算樣本量),那就不是規範行為!

我的建議,

首先,咱們必須計算樣本量;

第二,不要高估臨床研究組間的差異性

第三,檢驗效能可以設定80%,但請做好心理準備。

第四,別想著控制樣本量,要麼你換主要結局指標,選擇合適的結局指標,也許樣本量就在你的預算裡面了。

第五,一切按照科研設計的思路進行實驗和統計分析。

然後,無論P值如何,哪怕P值>0.05,也許有一天,你和你的老闆非常有信心地說,我們投個JAMA看看吧。

11
最新評論
  • 孕期如何控制饑餓感
  • “一根繩子”鍛鍊全身,跳繩原來有這麼多好處?也要知道注意事項