2020年1月初,世界衛(wèi)生組織(WHO)發(fā)布了有關(guān)新冠肺炎的病例通報。然而早在2019年12月初,一家專門通過人工智能監(jiān)測傳染病傳播的加拿大公司就警告過它們的客戶會有相關(guān)疫情的風(fēng)險。這一警告來自網(wǎng)絡(luò)上對動植物傳染病的新聞報道和文章的AI分析。同時,對全球機(jī)票數(shù)據(jù)的分析可以讓AI準(zhǔn)確預(yù)測病毒數(shù)日后的傳播情況。
01?缺乏監(jiān)管框架
案例揭示了AI和機(jī)器學(xué)習(xí)(ML)的能力。這兩者都越來越多地通過集成電路的形式被運用于醫(yī)療器械領(lǐng)域。盡管使用AI同樣有風(fēng)險,但常用標(biāo)準(zhǔn)和規(guī)范尚未包含對這些創(chuàng)新技術(shù)的具體要求。比如歐盟的醫(yī)療器械法規(guī)(MDR)僅提出了一般性軟件要求。根據(jù)規(guī)定,必須按照當(dāng)前技術(shù)水平、為目標(biāo)用途開發(fā)和生產(chǎn)軟件。
這也適用于AI,必須確保功能的可預(yù)見性和可重復(fù)性,這反過來又需要經(jīng)過驗證和確認(rèn)的AI模型。軟件標(biāo)準(zhǔn)IEC 62304和IEC 82304-1就提出了驗證和確認(rèn)要求。但是傳統(tǒng)軟件和搭配機(jī)器學(xué)習(xí)的人工智能仍然有根本上的區(qū)別。機(jī)器學(xué)習(xí)基于使用數(shù)據(jù)訓(xùn)練模型,而不是對流程進(jìn)行明確的編程。隨著訓(xùn)練的進(jìn)行,模型會通過改變“超參數(shù)”不斷改善和優(yōu)化。
02?測試AI訓(xùn)練數(shù)據(jù)和定義范圍
數(shù)據(jù)質(zhì)量的好壞是AI進(jìn)行預(yù)測的關(guān)鍵。常見問題包括監(jiān)督機(jī)器學(xué)習(xí)模型中的偏差、模型過度或低度擬合以及標(biāo)簽錯誤。測試揭示了這些問題,并顯示偏差和標(biāo)簽錯誤常常是缺乏多樣性的訓(xùn)練數(shù)據(jù)無意識導(dǎo)致的。以一個被訓(xùn)練用于識別蘋果的AI模型為例。如果用于訓(xùn)練模型的數(shù)據(jù)主要是不同形狀和大小的青蘋果,模型可能會將綠色的梨子認(rèn)成蘋果卻無法識別紅蘋果。在特定環(huán)境下,某些方面無意識的共同特性可能被AI視為重要特性,盡管它們毫不相關(guān)。數(shù)據(jù)的統(tǒng)計分布必須做出合理調(diào)整,以符合真實環(huán)境。比如,AI在識別人類時,兩條腿不應(yīng)被視為關(guān)鍵因素。
標(biāo)簽錯誤也可能是主觀性(“疾病嚴(yán)重程度”)或標(biāo)識符不適合模型用途導(dǎo)致的。為大量數(shù)據(jù)貼上標(biāo)簽并選擇合適的標(biāo)識符是一個需要大量時間和成本的流程。有時只有很少一部分?jǐn)?shù)據(jù)會進(jìn)行人工處理,用于訓(xùn)練AI,然后指示AI標(biāo)簽剩余數(shù)據(jù)。這個過程并不能保證沒有錯誤,也就是說錯誤會重復(fù)出現(xiàn)。
成功的重要因素就是數(shù)據(jù)質(zhì)量和使用的數(shù)據(jù)量。目前,根據(jù)經(jīng)驗估計一個算法所需的數(shù)據(jù)量少之又少。雖然基本上只要數(shù)據(jù)的質(zhì)量和數(shù)量足夠高,即便是簡單的算法也能發(fā)揮良好的作用,但大多數(shù)情況下能力受限于(標(biāo)簽)數(shù)據(jù)的可用性和計算能力。所需數(shù)據(jù)的最小范圍取決于問題和AI算法的復(fù)雜度,非線性算法所需的數(shù)據(jù)要多于線性算法。
通常70-80%的可用數(shù)據(jù)用于訓(xùn)練模型,其他數(shù)據(jù)用于驗證預(yù)測。用于AI訓(xùn)練的數(shù)據(jù)應(yīng)涵蓋特性的最大帶寬。
示例:識別膝蓋骨關(guān)節(jié)炎
黑盒AI顯示,以下圖片所屬的兩位患者中的一人將在未來三年發(fā)展成膝蓋骨關(guān)節(jié)炎。
這是人眼看不到的,在當(dāng)前的診斷無法確認(rèn)的情況下,患者還會選擇手術(shù)嗎?(以下圖片來自Spectrum IEEE.org在2018年8月發(fā)表的“Making Medical AI Trustworthy”(讓醫(yī)療AI更加可信) ,最初來自O(shè)steoarthritis Initiative。這篇文章反映的是作者的觀點,不一定代表NIH或?qū)⒊跏紨?shù)據(jù)提交到Osteoarthritis Initiative的研究人員的觀點或看法。)
上圖:圖1.這位患者在未來3年不會患上骨關(guān)節(jié)炎。
上圖:圖2.這位患者將在未來3年患上骨關(guān)節(jié)炎。
03?AI——注意黑盒問題
醫(yī)療器械所用AI算法的透明度與臨床相關(guān)。AI模型有著非常復(fù)雜和非線性的結(jié)構(gòu),常常就像“黑盒”一樣,也就是很難甚至無法了解它們是如何做出決策的。比如在這個案例中,專家無法確定輸入模型數(shù)據(jù)的哪個部分(例如診斷圖像)促使AI做出了判斷(例如圖片中檢測到的癌癥組織)。
重構(gòu)MRT和CT圖像的AI方法也被證明在部分情況下不夠穩(wěn)定。輸入圖像上即便是小小的改變也能導(dǎo)致完全不同的結(jié)果。一個原因在于算法的開發(fā)有時基于準(zhǔn)確度,而沒有考慮到穩(wěn)定性。
如果AI預(yù)測不能做到透明且可理解,其醫(yī)療決策的正確性就會受到質(zhì)疑。目前AI在臨床前應(yīng)用中的一些錯誤進(jìn)一步加劇了這些懷疑。為確?;颊甙踩瑢<冶仨毮軌蚪忉孉I做出的決策。這是贏得并維持信任的唯一方式。
下圖說明了黑盒和白盒AI之間的區(qū)別。
上圖:圖3.黑盒AI
上圖:圖4.白盒AI
04?數(shù)據(jù)質(zhì)量
下圖顯示了使用低質(zhì)量數(shù)據(jù)訓(xùn)練AI的結(jié)果。示例包括:
偏差數(shù)據(jù)(確定結(jié)果類型時出現(xiàn)偏差)
過度擬合數(shù)據(jù)(見圖6)包含和過度重視相關(guān)性很小或者無關(guān)的特性。??
低度擬合數(shù)據(jù):模型不能準(zhǔn)確代表訓(xùn)練示例。
上圖:圖5.使用低質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練的結(jié)果
上圖:圖6.過度擬合(紅線)數(shù)據(jù)(點)。包含和過度重視相關(guān)性很小或者無關(guān)的特性。
上圖:圖7.低度擬合(紅線)數(shù)據(jù)(點)。模型不能準(zhǔn)確代表訓(xùn)練示例。
05?開發(fā)人員和制造商的免費指南
德國公告機(jī)構(gòu)的利益集團(tuán)((IG-NB)?)發(fā)布的免費檢查表為醫(yī)療器械列出了150項開發(fā)和上市后監(jiān)管要求(見下方信息框)。在政府發(fā)布AI醫(yī)療器械安全標(biāo)準(zhǔn)之前,可使用該指南盡量減小醫(yī)療AI生命周期中的風(fēng)險。這有助于以高度規(guī)范化的方式為市場引入新技術(shù)。