你們做核酸檢測了嗎？一個演算法讓核酸檢測成本降低到千分之一？

首頁>科技>CDA資料分析師2021-01-28 15:44

你們做核酸檢測了嗎？一個演算法讓核酸檢測成本降低到千分之一？

1.10人一組混檢

到了過年的時候了，你要回老家過年嗎？如果回老家過年，需要做核算檢測。我也正在猶豫中。你們做了嗎？

核酸檢測本身是一個比較費時，費力，費錢的複雜過程，所以現在低風險地區都是採用的10人一組混合檢驗的。

具體來說就是將採集自10個人的10支拭子樣本集合於1個採集管中進行核酸檢測。

混檢篩查中一旦發現陽性或弱陽性，將會立即進行追溯，通知相關部門對該混採管的10個受試者暫時單獨隔離，並重新採集單管拭子進行復核，再確定這10個人當中到底哪一個是陽性。

如果檢測結果是陰性，意味著這10個樣本全是陰性，混檢的10個人都是安全的。

看到這個過程後，作為程式設計師的我禁不住拍了一下自己的大腿，這不就是個很簡單演算法嘛！但是這個小小的演算法把檢驗的成本降低了接近90%，把檢驗的速度提高了近10倍！演算法真是太奇妙了！

順著這個思路，有沒有更好的演算法，進一步加快這個過程呢？理論上來說，如果用二分法，可以把14億次檢測減少到大概23萬次左右。而現在10比1混合檢驗的次數大約是1.4億次。

2.混檢是否安全

把10個人的樣本混在一起，咋一聽覺得很不靠譜，實際上還是很靠譜的。但是會不會出現檢驗不準的情況呢？確實存在一些潛在問題。

以下專業分析來自知乎，作者：返樸https://www.zhihu.com/question/404866690/answer/1326422005

假陰性率會增加，準確度下降。舉兩個假設的情況給大家解釋為什麼假陰性率會增加：

情況1：假設使用的是飽受爭議的美國CDC的核酸RT-PCR檢測試劑盒。這個試劑盒一共測三個新冠基因片段，其中兩個是新冠特異的基因片段，第三個是所有類似於SARS的冠狀病毒都有的基因片段。除此以外，還包括一個控制探針 (control probe)針對人的RNase P基因。這個探針的目的是用來保障取樣足夠和RNA提純過程沒有出錯。

如果取樣不夠，或者RNA純化出錯導致RNA降解，探針就讀不出數值，檢測結果就是“無效（invalid）”，還需要重新再測。

如果有位陽性感染者，在鼻咽拭子取樣的時候，樣本量取得不夠。如果對這個樣本用美國CDC的核酸試劑盒進行單獨的核酸檢測，雖然新冠基因是陰性，RNase P控制探針的結果也是陰性，最終結果就顯示“無效（invalid）”，還需要重新再測。

然而，如果把這個人的樣本和其他4個人混合在一起，進行混合核酸測試——其他4位都是核酸陰性，且取到了足夠的樣本。這時，用美國CDC的核酸試劑盒去檢測5個人的混合樣本，測出新冠基因是陰性，RNase P的控制探針是陽性（表明樣本取樣提純沒有出錯），因此得出結論：這5位都是核酸陰性。那位陽性感染者得到的就是一個“假陰性”結果。

情況2：不同核酸檢測的設計不同，導致試劑盒的敏感度和特異性也不同。假設所用核酸試劑盒的敏感度是500個新冠RNA/毫升。有一位陽性感染者取樣，提純樣本里面的RNA以後，用1µg總RNA量來做RT-PCR，裡面包含了500個新冠RNA/毫升，那麼檢測結果是陽性。可是如果他的樣本和其他4個人混在一起檢測，還是用1µg總RNA量來做RT-PCR，假設是等量混合，那麼他的RNA實際只佔~20%。1µg總混合RNA裡面大約只有100個新冠RNA/毫升。受試劑盒敏感度的限制，結果會是假陰性。

但這不是說混檢就不能實行，而是有一定的限制：

（1）每個樣本的採集量要足，否則會出現稀釋後出現假陰性的問題

（2）只對低風險地區實行混檢

3.混檢的演算法

下面用演算法簡單模擬取樣數量和檢測數量，其實也不是什麼演算法，就是兩個數學公式：

total_pop = 1400000000  #總人口rate = 0.00001  #感染率group_size = 10  #每組人數check_num = 0caiyang_num = 0#計算採用數量：總人數 + 要重複取樣的數量caiyang_num = total_pop + (total_pop * rate) * group_size#計算檢測次數：人數除以10 + 重複檢測數check_num = total_pop / group_size + (total_pop * rate) * group_sizeprint(f'採用數：{caiyang_num:,}, 檢測數量：{check_num:,}')

執行結果：採用數：1,400,140,000.0, 檢測數量：140,140,000.0

假設感染率為10萬分之一的情況下，要取樣14億零14萬次；要檢測1億4千萬零14萬次。

如果調整每100人一組檢測：採用數：1,401,400,000.0, 檢測數量：15,400,000.0

採用數增加了100多萬次，而檢測次數減少了1億2千多萬次。也就是說分組能極大的減少檢測次數。

但是受制於準確度的影響，我們這裡只是探討一下演算法。這些演算法在計算機的資料處理上，確實起到了把效率提高几萬，甚至幾十幾百萬次的效果。

4.用二分查詢混檢

如果用二分查詢法，可以進一步減少檢測次數減少到23萬次。

這裡仍然假設10萬人有一個感染，也就是10萬個人裡面找一個人出來。用二分法需要找約17次，那麼總的檢測次數就是：

group_size = 100000  #10萬人一組group_num = 1400000000 / 100000 # 共1400組from math import log# 用2分法每10萬人只需要log(10w,2)，大約16次檢測check_num = round(log(group_size, 2) * group_num)print(f'檢測數量：{check_num:,}')

計算結果：檢測數量：232,535

雖然由於檢測準確度的問題，二分法不能實施，但演算法的世界真的很奧妙。大家都應該學點程式設計，學點演算法。

下面是二分查詢法的Python非遞迴實現：

#二分查詢法，非遞迴實現def binary_search(arr, x):     low = 0    high = len(arr) - 1    mid = 0      while low <= high:         mid = (high + low) // 2        if arr[mid] < x:             low = mid + 1         elif arr[mid] > x:             high = mid - 1        else:             return mid     return -1    arr = [ 2, 3, 4, 10, 40 ] x = 10result = binary_search(arr, x)

下面是遞迴實現：

def binary_search(arr, low, high, x):       if high >= low:         mid = (high + low) // 2        if arr[mid] == x:             return mid         elif arr[mid] > x:             return binary_search(arr, low, mid - 1, x)         else:             return binary_search(arr, mid + 1, high, x)     else:         return -1  arr = [ 2, 3, 4, 10, 40 ] x = 10result = binary_search(arr, 0, len(arr)-1, x)

5.點贊是美德

你動動手指，就是對我最大的鼓勵，點贊，轉發走起！

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 在高速發展的網路資訊時代，真的好嗎？

熱門排行

劇多

你們做核酸檢測了嗎？一個演算法讓核酸檢測成本降低到千分之一？