資料探勘是一門隨著計算機科學發展而快速發展的學科,其在生命科學領域的作用隨著大量測序 資料的累計而逐漸顯現。
1 生存分析
生存分析是一類用於計算在一個集合內對於給定的時間段中影響因素與給定結果或時間事件之間 關聯的統計學方法,該方法的特點是可以對時間事件進行分析,其中 Kaplan-Meier 生存分析和Cox 迴歸分析是兩種最常用的時間事件標準化統計學方法。
Kaplan-Meier 生存分析可以基於一個影響因素對事 件進行分析,每個獨立個體的時間範圍由記錄點開始一直延續至事件發生點。Cox 迴歸分析是一種多引數迴歸模型,該模型以生存結局和生存時間為因變數,可同時分析多種因素對生存期的影響。
spss進行生存分析的cox迴歸模型(比例風險模型)
在隨機對照臨床試驗中,Kaplan-Meier 生存分析是首 選的資料分析方法。對於多影響因素事件,可選 用 Cox 迴歸分析。基於這兩種分析方法的特點,在 基因資料分析中,Kaplan-Meier 多用於分析基因表 達與生存週期的關係,而 Cox 迴歸多用於分析預後 影響因素與生存週期的關係。
2 差異表達分析和聚類分析
差異表達是指同一基因在兩個條件中的檢測結 果在排除系統誤差、人為誤差等因素後具有較為明 顯的差異,通常用 P 值來表示。這種差異可以透過 外顯子測序、晶片篩選等方法檢測。
比較同一基因在不同條件下的表達量差異是篩選潛在功能基因的第一步,通常由統計學工具輔助完成。常用的演算法包括倍數法、t 檢驗法、方差分析、SAM 法、貝葉斯法和資訊熵法等,這些統計學方法各有其優勢和不足。
聚類分析在基因表達資料研究中被大量應用且在不斷最佳化,它可以在模式分類數不確定的情況下對基因資料進行分組,其數學意義是將研究物件分為相對同質的群組。
從生物學的角度,這種方法就是將具有潛在相同作用的基因分為同一組,如對 一組腫瘤組織高表達基因可以假定其存在促腫瘤生長活性,對於一組低表達基因則可假定其存在抗腫瘤活性,或認為同一組基因可能受同一轉錄因子的調控等。
兩個影響聚類分析結果的重要指標是評價研究 物件相似性程度的距離尺度和將研究物件分組的聚 類演算法,其中距離尺度可以根據不同的篩選目的分為幾何距離、線性相關係數和非線性相關係數 3 種,分別對應的是衡量樣本間的相似性、衡量樣本間是 否具有相同變化趨勢和衡量樣本間在同一時間節點的波動趨勢是否相似。
而常用的聚類演算法主要包括簡單聚類、層次聚類、模糊聚類、k 均值聚類、雙向聚類和自組織對映神經網路聚類等。對於聚類結果,一般選擇對其進行視覺化處理,使其更易於接受和直觀的分析,常用的有熱圖(heatmap)、點線圖和冰柱圖等。
3 受試者工作特徵曲線分析
受 試 者 工 作 特 徵 曲 線 分 析 (receiver operating characteristic, ROC) 最早起源於第二次世 界大戰時期,最初用來降低雷達兵們的誤報率和漏報率,現多用於臨床疾病診斷臨界點尋找、不同檢 測方法對同一疾病的識別能力的比較、單一生物標 志物對疾病的診斷準確度和篩選對疾病發生髮展有 顯著影響的潛在基因。
ROC 曲線是一條透過二分類方式擬合的非線性曲線,其縱座標為敏感度,橫座標為(1-特異性),評價指標為曲線下面積(area under the curve, AUC)。與生存分析最大的不同點在於 ROC 曲線分析不考慮時間因素,且不需要將試驗結果分為兩類,因此一般不用於分析預後等時間相關事件。
ROC 曲線分析的優點是直觀、簡單,可用肉眼看出結果。而缺點是對臨界點的尋找沒有明確的限定,可能一定程度上影響資料分析結果。
在許多生物信 息學分類分析時,ROC 分析經常出現正相關顯著低 於負相關的現象,因此研究人員對其進行了改進, 加入了精確率與反饋率曲線 (precision-recall, PR), 這一最佳化使正負分類結果相對平衡,已經在 R 語言 中實現了應用。對於不同條件間 ROC 比較,則需要 分別對其 AUC 進行處理,消除抽樣誤差帶來的影響,常用的處理方法有 Delong 法和 Hanley 法。
4 Meta 分析
Meta 分析是一種對同類研究結果進行整合定量分析的統計學方法,其目的是透過整合多個已有的研究資料來增大樣本含量,從而減少由隨機誤差所導致的資料差異,進而增大檢驗學效能。在臨床研 究中常用於病因學、診斷性試驗、發病機制、病人 費用和效益、流行病學、干預措施評價、隨訪和預 後測評等方面的分析。
一般的分析流程為提出研究問題、文獻與資料收集、資料構建、Meta 分析和實驗驗證。其中文獻與資料收集是影響 Meta 分析結果 的關鍵步驟,涉及到文獻搜尋策略和資料納入排除 標準的建立。
一般來說,同一領域不同研究組之間的操作和研究方法會存在一定區別,進而帶來一些人為誤差。
這種差異被稱為異質性,一般分為方法異質性、臨 床異質性和統計學異質性。異質性檢驗是驗證所構 建標準是否良好的常用方法。對於基因表達常用的晶片 Meta 分析,一般選用同一測序平臺來源的資料 以避免測序方法對分析結果的干擾。
Meta 分析根據實際要求不同可以分為多種型別包括單組率 Meta 分析、網狀 Meta 分析和診斷性 Meta 分析等,其具體分類依據在許多文章中都有報道過,因此不再敘述。
圖自配~