開發新一代AI醫學影像分析軟體，創新效率與產品質量如何平衡？

首頁>Club>2021-02-19 19:22

開發新一代AI醫學影像分析軟體，創新效率與產品質量如何平衡？

回覆列表

1 # 隔壁科技吳志鵬

選擇合適的研發方向

選擇一個適合使用新一代人工智慧技術來解決的臨床實踐問題，是醫療器械產品研發的第一步。醫療產品的開發離不開科研成果的轉化，但臨床科研與生產一款醫療器械產品還是存在著較大差別的。臨床科研是為了探索臨床實踐中的問題，並給出可能的解決方案。很多科研結果只是在相對理想的條件下進行的嘗試，與實際臨床應用中面臨的複雜環境還存在差距。
一些企業選擇解決目前還沒有明確科研成果和結論的方向進行嘗試，這種創新方向的嘗試既有可能創造較大的正向收益，也有可能造成較大的負面損失。一方面，對於還沒有明確科研結果的問題，如果這種嘗試能夠解決，會形成較高的技術壁壘，而且，在科研的過程中會發現許多生產中可能遇到的問題，這有利於積累解決問題的經驗。另一方面，從科研開始做起會延長產品的研發週期，對於初創企業來講會產生較大的壓力。這因為，科研課題有可能成功，有可能失敗，對於沒有固定營收的初創企業來講，風險較大。

演算法、算力、資料是深度學習演算法的三要素，在選擇產品開發方向的時候，需要考慮到目前各方面資源在這三個維度是否能夠達到生產產品的要求。

目前的算力主要依賴於GPU顯示卡，在大多數的專案開發中，算力不會是專案開發的瓶頸，相關問題可以透過購買更多的計算資源解決。
演算法方面，一般來說，一個可以用深度學習解決的醫學影象處理問題，之前都會有使用傳統機器學習的相關研究論文發表。因此，透過文獻調研的方式，可以瞭解採用傳統機器學習的準確性，以此作為深度學習演算法研發的一個基礎標準，透過增加資料量的方式，利用深度學習演算法提升演算法的準確性。如果之前在該方向沒有傳統機器學習的演算法文章發表，則需要進行更多的調研，從調研中瞭解沒有文章發表的真實原因。尤其是當該類問題的資料很容易蒐集，且臨床問題看上去很簡單直接的時候，更應當深挖這其中的問題，以免重蹈前人的覆轍。

資料是基於新一代人工智慧技術研發產品的基礎，在開始一款人工智慧醫療器械的研發之前，我們應當充分調研資料——作為生產材料，是否能夠獲取我們希望得到的質量與數量。與交通、安防等行業動輒以TB為單位的海量資料相比，醫療行業的資訊化、數字化程序相對滯後，病例數能夠達到上萬或者數十萬的量級已經是十分困難。通過了解頭部醫院對於相關病例數的積累，可以大致瞭解資料量是否充足，同時結合之前機器學習文章中資料集的積累情況，可以基本判斷出研發所需的資料集是否有可能獲取到，或是需要多長時間的積累才可以達到比較理想的狀況。
除了做資訊調研，與臨床醫生進行密切的合作也是選擇正確研發方向的一個重要環節。醫學專家不僅有著豐富的臨床經驗，清楚臨床需求，還有多年的臨床科研經驗，對很多新的方向都有所嘗試，這些經驗是十分寶貴的。從臨床專家那裡獲取真實的臨床需求，瞭解科研中遇到的問題、困難以及取得的成果，可以避免走彎路，有利於更好地尋找到適合自身的研發方向。

明確產品功能定義

研發醫療器械產品，需要研發負責人對產品形態在整個醫療過程中扮演的角色、產品可以解決臨床工作中的什麼問題有著清晰的理解和認識，切忌盲目地“拿著錘子找釘子”。相比大眾消費領域的需求可以被大多數人所理解，產品定義者本身作為一名消費者能夠理解消費者群體的需求，而醫療等行業具有較高的專業知識壁壘，醫生和患者之間存在著極大的專業知識的不對稱性，使得我們無法從一個患者的角度，來創造一個作為患者所理解的醫療需求，而是應該更多地站在專業醫生的角度來思考問題。
臨床需求大體上可以分為兩類，一類是提升診斷和治療的準確性，也就是更好地看病；另一類是提升醫療效率，使得醫生在同樣的工作時長中能夠治療更多的患者。

解決不同的需求所面臨的使用者也是不同的。由於中國醫療資源分配不均、醫生水平不等等問題，導致在不同的應用場景下，實際需要實現的演算法需求是不同的。

例如，對於一個疾病篩查的任務，需要儘量降低假陰性及漏診率。而對於一個需要在大型三甲醫院進行確診的病例，特異性、誤診率可能是需要被首先考慮的指標。由於人工智慧演算法的特性，使得即使是在同樣的資料和演算法條件下構建的最優模型，在最終輸出結果時，閾值的選擇還是決定了敏感性、特異性兩個效能指標肯定是一升一降。而醫療器械要求演算法具有極高的可重複性，不能隨意改動演算法引數，影響輸出結果。因此，需要根據不同場景和使用者的不同需求情況，分別開發適用於這些場景的產品。
由於人工智慧技術最早被應用於網際網路產業之中，所以在醫療人工智慧產品的開發中，除了傳統的醫療器械開發人員之外，也引入了很多具有網際網路產品開發背景的人員。

網際網路產品的開發講求快速迭代，不斷更新，根據使用者的使用情況，及時反饋和修正，以實現最好的使用者體驗。很多網際網路產品的功能迭代是以月、周甚至天為週期的，而傳統的醫療軟體的更新頻率通常是以年為單位。之所以醫療軟體更新的週期長，是因為整個研發過程需要進行嚴格的質量控制，以保證最終輸出的產品不會在臨床使用過程中發生意外或產生風險，而且醫療產品的每一次迭代都會產生巨大的研發成本。與很多網際網路產品選擇先上線供客戶試用，再不斷修正錯誤的過程不同，對於直接關係到人體生命健康的產品，醫生也不敢在有潛在風險的情況下，貿然嘗試將該產品在臨床使用。
因此，對於剛剛進入醫療行業的公司來講，建議加強企業對醫療器械質量文化的研究和實踐，認真分析並理解“網際網路思維”和“醫療器械質量文化”的差異，在發揮自己優勢的同時，也要提升自己在醫療器械領域的研發水平。當然，網際網路公司所擅長的敏捷開發，也是醫療器械公司所追求的，但這非照搬“盲目提出功能需求、先開發後修改”的模式。

一個經濟且高效的開發方式，應當是在最初進行產品整體設計之時，對技術可行性、使用者需求、市場規模等多個方面進行充分的調研，確定產品的適用範圍和最終功能形態之後，透過敏捷開發的形式，不斷向著最終的目標前進，快速解決研發過程中遇到的各種問題。在保證產品質量的同時，儘快推進產品的研發上市進度。

嚴格資料質量控制
與生產其他的人工智慧產品不同，生產一款醫療器械產品，要同時關注安全、有效這兩個方面，國家相關部門對於產品的審批，也主要考察這兩個方面。

國家藥監局醫療器械技術審評中心釋出的《深度學習輔助決策醫療器械軟體審評要點》（以下簡稱《審評要點》）中提到：“從發展驅動要素角度講，深度學習實為基於海量資料和高算力的黑盒演算法。本審評要點重點關注軟體的資料質量控制、演算法泛化能力、臨床使用風險，臨床使用風險應當考慮資料質量控制、演算法泛化能力的直接影響，以及算力所用計算資源（即執行環境）失效的間接影響。”可見資料質量控制在新一代人工智慧醫療產品的開發中發揮著重要作用。

在新一代人工智慧醫療軟體的開發中，資料扮演著生產原材料的角色，因此對於生產原材料的質量需要嚴格把關。《審評要點》中提到：“資料收集應當考慮資料來源的合規性和多樣性、目標疾病流行病學特徵、資料質量控制要求。資料來源應當在合規性基礎上保證資料多樣性，以提高演算法泛化能力，如儘可能來自多家、不同地域、不同層級的代表性臨床機構，儘可能來自多種、不同採集引數的採集裝置。”也就是說在獲得資料的時候，既要考慮到資料的來源，也需要完整記錄資料相關的資訊。
研發人員要根據產品功能定義的內容，來確定該產品所需資料的完整性應包含的具體內容。而產品功能的定義要參照目前公認的臨床指南、專家共識、檢查規範等業界規範標準進行設定。

在功能設計的時候，要保證功能的實現符合目前臨床的常規操作流程。例如：一款醫療器械軟體的功能定義為確定病灶位置，而病灶位置以及外觀屬性是可以透過影像資料準確判斷的，醫生在臨床診斷時，無需其他輔助資訊單純獲取影像資料即可。如果該軟體功能定義為判斷病灶良惡性，而臨床上良惡性是透過病理結果確定的，則完整的資料至少應包括影像+病理報告。同時，如果是分類問題，每一類的資料量應當符合相應演算法的最低要求。

預實驗確保標註質量

資料標註是人類藉助計算機等工具，對各種型別的資料包括文字、圖片、語音、影片等，完成分類、畫框、註釋、標記並打上說明其某種屬性的標籤的工作。整個加工過程都應該在嚴格的質控下進行。除了在招募醫生時應有較高的招募標準外，在招募完成後，還要對醫生重新進行標註能力的評估和考核。
建議由醫學專家組對參與考核的醫生進行標註規範培訓，之後由醫學專家組統一製作一批具有正確答案的標註資料作為考試庫資料。在篩選醫生時，根據病種類型選擇相應比例的考試題，測試應保證覆蓋產品功能中要分辨的每一類病例。

在醫生資質測試考核中，不僅要檢測醫生對病例判讀的準確性，還要考察該醫生兩次診斷的一致性。標註關注的重點是一致性，也就是說同一病例由不同標註者或同一標註者進行兩次觀測，其結果在誤差允許範圍內是一致的。評價一致性程度的方法很多，比如說Kappa值、Kendal l一致性係數、組內相關係數（ICC）等。對於不同的資料型別和標註方式，需要選擇合適的評價方式。

透過標註資格篩選考試的醫生，可以認為其專業水平達到專案的要求。但是在實際標註中，無論是現場集中標註還是遠端線上標註，標註人員的工作狀態都有可能會出現波動。所以需要對醫生每天的標註狀態進行實時監測，以保證資料標註的質量不會出現大幅度波動。監測方式主要有以下幾種：
第一，標註時間監測。在培訓測試階段，可以透過記錄測試過程中醫生對於每一個病例的標註時間，建立每一位標註者的標註時間分佈。在實際標註階段，可以透過不斷比對每一個病例的標註時間、該時間在該標註人員標註時間分佈中的位置來判斷標註的狀態。若標註時間多次出現過長或過短的情況，則需要對標註人員的狀態和資料的質量同時進行評估。

第二，標註一致性監測。在標註過程中，引入部分病例，讓同一名標註人員進行二次標註，並計算同一個人兩次標註之間的一致性，以確保標註人員的標註一致性水準始終能夠達到專案的要求，保證整體標註的一致性。

第三，標註準確率監測。在標註過程中，引入部分醫學專家提供的帶有標準標註答案的病例，計算標註人員對於帶標準答案病例標註的準確性，用以評估標註人員的實時狀態。
由於開發深度學習類產品所需的資料標註量極大，標註過程的時長、費用都會十分高，因此控制標註過程的質量以及設計合理的標註方法和流程，能夠控制標註成本，大大降低由於設計不合理造成的返工和成本增加。

為了避免在大量資料標註後才發現問題，推薦進行小批次標註預實驗，用以檢驗方案的可行性。即在大批次資料標註之前，先選取少量病例數進行標註預實驗，以檢驗標註培訓效果和標註醫生水平，檢驗標註方案和標註策略是否可行，為確立最終的標註策略提供資料分佈以及標註質量評定的參考，同時預估標註耗時和成本。標註預實驗階段，應選取超量的醫生（與最終實際標註相比）進行重複標註，以便評價不同標註質量控制和標註醫生的能力。如果在小樣本測試中發現多名醫生標註一致率不高等問題，則應當重新回顧產品需求的設計和功能定義，確定該問題是否可以透過該種標註形式來達到預期效果。
構建一個人工智慧產品，把演算法模型從0訓練到可以達到臨床實際應用的程度，需要嚴格管理每一個環節質量。好的標註資料質量就像營養豐富、均衡、乾淨衛生的美食一樣，輸入進模型可以幫助人工智慧模型健康、茁壯的成長。但是如果輸入了質量不達標的訓練資料，則會造成嚴重的“先天不足”，影響後天的成長。

“磨刀不誤砍柴工”，正確的產品設計、高質量的資料、準確的標註是一個醫療人工智慧產品能夠成功的重要條件。我們既要做到快速迭代，又要保證資源的合理利用。我們可以透過前期的充分調研論證與思考，配合小批次的預實驗來驗證方案的可行性。這既可以實現快速的多輪迭代，又可以避免資源的大量非必要支出，增加每輪迭代的有效性。我們在研發過程中既要充分學習網際網路行業快速迭代開發的機動性，又要保證遵循傳統醫療器械行業審評中“安全、有效”的基本要求，只有這樣，才能設計出好的基於新一代人工智慧技術的醫療器械軟體。

劇多

開發新一代AI醫學影像分析軟體，創新效率與產品質量如何平衡？

相關內容