撰文 | Siyu
如何利用古代遺留的DNA和現在人群的DNA捕捉進化的訊號是一個有趣的問題,在來自賓夕法尼亞大學華裔學者Dan Ju和Iain Mathieson助理教授近日發表在PNAS的文章中,他們應用1158例來自西部歐亞大陸(地理上對應當今的歐洲地區)古代人的DNA資料(覆蓋年限為4萬年前),結合UK Biobank的GWAS資料,探索了西部歐亞大陸古代人群的面板色素變異的進化,發現古代西部歐亞大陸的資料中有170個面板色素相關的SNP(單核苷酸多型性)有很強的進化的訊號。淺色面板色素變異的進化可能是由一小部分效應很大的變異造成的。
透過這篇文章,大家可以瞭解population genetics這個領域在做什麼,怎麼做的。
該篇文章的research question是:
It is unclear whether selection has operated on all of the genetic variation associated with skin pigmentation as opposed to just a small number of large-effect variants.
自然選擇(selection)是發生在一小部分變異上(這部分變異效應大),還是發生在所有的變異上。
重要圖示解讀,目的在解讀圖片代表了什麼資訊,是用什麼方法得到圖片的資訊的。
圖1
先看圖1的ABC三張圖。
古代人的DNA測序後用兩種方式分析得出兩種資料庫,Shotgun和Capture-shotgun,區別是得到Shotgun時沒有用富集(enrichment)的方法。因為我們無法瞭解古人的面板色素表型,所以用UK Biobank的資料(蒐集了現代人群面板色素表型和GWAS資訊)來幫助我們推測古人的面板表型。最終的目的是看面板色素在過往的時間裡是如何變化的。
應用古代人DNA資料,按基因效應的大小給變異進行加權,計算出遺傳分數(genetic score)。圖中的每個點代表一個古代人個體,可以看出隨著時間的推移,遺傳分數在下降,發現加權後的深色色素等位基因的比重在4萬年間顯著地降低。
在過去的1.5萬年和過去4萬年之間,多基因遺傳分數(polygenic score)降低的順序是相似的(5.27 × 10-5 per year vs. 3.47 × 10-5 per year; P = 0.04).
其中圖1的C和F是看三個亞組的情況。和之前的研究一樣,研究者也想將祖先分類,互相對照。研究者用聚類的方法(用ADMIXTURE軟體)把古代人群分成了early farmer(EF,早期農民),hunter-gathering(HG,打獵採集者),Steppe(SP, 遊牧族)三個族群(這三個族群處於Holocene全新時),是population genetics很常用的一種方法,聚類後根據發現DNA的地理位置、該DNA的歷史時間、發現時的其他證據(勞動工具),推測該類人群的特性,賦予文化方面的定義。
EF、HG和SP分別是藍色、紅色、綠色的點。
比起早期的農民、遊牧民族,中石器時代的打獵採集者所攜帶的淺色色素基因更加少(可以看出代表打獵採集者的紅色點處於的分數位置更加高)。這種的差異和中石器時代的打獵採集者vs舊石器時代晚期人群的差異類似。
兩組(打獵採集者、早期農民)組內的變化不是很明顯,遊牧民族的祖先降低得比較陡峭(可以看圖 1C擬合的斜率)。
再看圖1的DEF。
儘管用UK biobank可以很好地去探測到現在歐洲人產生基因多型性的基因,但是沒法探測到沒有產生基因多型性的基因。於是我們手動地展現一個含18個SNP(單核苷酸多型性)的小組,在7個不同祖先的人群研究表示,這些SNP和面板色素相關。
用這18個SNP去計算了一個沒有加權的分數,和UK Biobank裡面證實的SNP有類似的趨勢。在Capture-shotgun資料庫中,4w到1.5w年前是有一個顯著下降的趨勢;但在Shotgun資料庫裡這個趨勢不明顯,可能是樣本太小造成的。
圖2
圖 2的每個點代表的是獨立的SNP。點如果偏紅,代表淺色色素等位基因的頻率在增加,點如果偏藍,代表淺色色素等位基因的頻率在減少。如果x軸的值越大,表示時間對這個SNP頻率影響的P值越大。如果y軸的值越大,表示祖源對這個SNP頻率影響的P值越大。
可以看出,有的SNP受時間和祖源影響都很大,有的SNP受祖源影響不大,受時間影響大。
詳細解釋如下:
這一步,研究者調查單個變異的進化。研究者意在區分祖源和進化的效應。方法是把一個等位基因的表達或者缺失作為因變數(可以理解為淺色色素的存在或者是缺失),把主成分分析得出的10個主成分(祖源)、時間、地理等變數作為自變數,做logistics迴歸。
如果等位基因的頻率變化可以用祖源的變化來解釋,那麼祖源就對於基因的頻率變化有效應。
如果考慮了祖源後,隨著時間變化基因的頻率有顯著的改變(時間發生了影響),那麼就是進化發生的證據。
這裡可能你會問兩個問題。
1.10個主成分是怎麼來的?
答:可以理解為用現代人的遺傳資訊製作了一張圖(map),然後把古代人的DNA匹配到圖上,獲得了10個主成分,代表祖源。
2.怎麼知道時間確實是有影響的?
其實是有兩個迴歸方程,第一個方程中加入了所有的自變數(包括時間、祖源、地理位置等),第二個方程除時間之外加入了所有的變數(不包括時間),然後計算這兩個方程對因變數的預測能力差異(用likelihood ratio test),如果預測能力變化不大,說明時間效應不大;如果預測能力變化很大,說明時間的效應較大(缺了它迴歸方程預測能力降低)。
圖 3
圖3中HG、EF、SP仍然代表採集打獵者、早期農民、遊牧族。GBR代表英國居民。CHB代表中國漢族人群。YRI代表非洲約魯巴人。
單個的點還是代表單個的SNP。
X軸代表現代英國居民和漢族、約魯巴人的差異。Y軸代表X人群和漢族、約魯巴人的差異,X可以是採集打獵者、早期農民、遊牧族,分別展現在圖3的ABC中。
透過圖,我們可以看出單個SNP,在現代英國人群中,和對照組差異怎麼樣,在古代人採集打獵者、早期農民、遊牧族三組中,和對照組差異怎麼樣。
這種差異是怎麼計算出的呢,是用PBS (population branch statistic)這個變數。具體的計算方法可以看method,也是基於樣本量和SNP的等位基因頻率算出來的。
可以看出,很少了色素位點有非常極端的PBS值,也沒有太多位點在三個族群中有明顯的頻率差異。在早期農民和遊牧族兩個古代族群中(而非採集打獵者族群),SLC24A5這個位點有一個很強的訊號(signal)(看B和C圖,而A圖沒有),暗示這個位點在這兩個族群中有發生自然選擇(selection)。可能是在早期農民和遊牧族發生融合前,SLC24A5的進化就已經發生了。
圖 4
圖4是主要是看是不是一小部分效應很大的SNP(a small fraction of SNPs with large genetic effect)發生了進化(而不是所有和面板色素相關的SNP都發生率進化)。
可以看出圖A,依次剔除了effect size最大的10個SNP後,遺傳分數下降趨勢的變化,說明效應大小排位靠前的幾個SNP對於遺傳分數的趨勢影響很大。
圖B是一共170個SNP,依次剔除後的Qx值的變化,可以看到,剔除最靠前的前5個SNP,Qx變化很大。
圖C可以看,x表示表型的差異由可以英國人群內的基因變異解釋,y表示表型的差異可以由英國和約魯巴人之間的差異解釋。再次看到如果以SLC45A2這個變異來解釋表型的差異(膚色的深淺),由英國人和非洲約魯巴人族群間造成的差異可以解釋得比較多,而英國人族群之間的差異能解釋得沒有那麼多。
具體是如何計算的method也有介紹。這篇文章也講了Qx怎麼算: https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1004412
總結就到這裡啦,對population genetics感興趣的話,還可以檢索其他文章,也有中國學者2020年5月在Science發過這個領域的文章。
原文連結:
https://www.pnas.org/content/118/1/e2009227118.abstract