平衡創(chuàng)新效率與產(chǎn)品質(zhì)量
對新一代人工智能醫(yī)學(xué)影像分析軟件產(chǎn)品開發(fā)的思考
自1956 年在達(dá)特茅斯學(xué)院召開的會議上正式提出“人工智能”一詞至今,人工智能技術(shù)發(fā)展已經(jīng)經(jīng)歷了三起三落。最早的醫(yī)療人工智能系統(tǒng)是1972 年英國利茲大學(xué)研發(fā)的用于腹部劇痛輔助診斷的AAPHelp,隨后又有多個(gè)研究機(jī)構(gòu)嘗試使用人工智能技術(shù)進(jìn)行輔助診斷系統(tǒng)的開發(fā),但由于算法性能和數(shù)據(jù)量的問題,都沒有真正在臨床廣泛使用。在這一過程中,很多傳統(tǒng)的機(jī)器學(xué)習(xí)算法被大量應(yīng)用在圖像重建、后處理等醫(yī)療器械軟件中,幫助醫(yī)生實(shí)現(xiàn)了更高質(zhì)量的圖像重建和一些自動(dòng)/ 半自動(dòng)的圖像后處理功能(如圖像分割、定量分析等)。
進(jìn)入21 世紀(jì)后,伴隨著算法、算力的再一次升級,各行業(yè)多年數(shù)字化、信息化積累下了海量的數(shù)據(jù),以深度學(xué)習(xí)為代表的新一代人工智能技術(shù)再次興起,一大批研究機(jī)構(gòu)與創(chuàng)新企業(yè)開始探索如何將這些技術(shù)應(yīng)用于醫(yī)療領(lǐng)域。本文根據(jù)作者多年來從事醫(yī)療器械開發(fā)、臨床研究的經(jīng)驗(yàn),分析和討論新一代人工智能技術(shù)在醫(yī)學(xué)影像分析類產(chǎn)品開發(fā)過程中的應(yīng)用。
選擇一個(gè)適合使用新一代人工智能技術(shù)來解決的臨床實(shí)踐問題,是醫(yī)療器械產(chǎn)品研發(fā)的第一步。醫(yī)療產(chǎn)品的開發(fā)離不開科研成果的轉(zhuǎn)化,但臨床科研與生產(chǎn)一款醫(yī)療器械產(chǎn)品還是存在著較大差別的。臨床科研是為了探索臨床實(shí)踐中的問題,并給出可能的解決方案。很多科研結(jié)果只是在相對理想的條件下進(jìn)行的嘗試,與實(shí)際臨床應(yīng)用中面臨的復(fù)雜環(huán)境還存在差距。
一些企業(yè)選擇解決目前還沒有明確科研成果和結(jié)論的方向進(jìn)行嘗試,這種創(chuàng)新方向的嘗試既有可能創(chuàng)造較大的正向收益,也有可能造成較大的負(fù)面損失。一方面,對于還沒有明確科研結(jié)果的問題,如果這種嘗試能夠解決,會形成較高的技術(shù)壁壘,而且,在科研的過程中會發(fā)現(xiàn)許多生產(chǎn)中可能遇到的問題,這有利于積累解決問題的經(jīng)驗(yàn)。另一方面,從科研開始做起會延長產(chǎn)品的研發(fā)周期,對于初創(chuàng)企業(yè)來講會產(chǎn)生較大的壓力。這因?yàn)?,科研課題有可能成功,有可能失敗,對于沒有固定營收的初創(chuàng)企業(yè)來講,風(fēng)險(xiǎn)較大。
算法、算力、數(shù)據(jù)是深度學(xué)習(xí)算法的三要素,在選擇產(chǎn)品開發(fā)方向的時(shí)候,需要考慮到目前各方面資源在這三個(gè)維度是否能夠達(dá)到生產(chǎn)產(chǎn)品的要求。目前的算力主要依賴于GPU 顯卡,在大多數(shù)的項(xiàng)目開發(fā)中,算力不會是項(xiàng)目開發(fā)的瓶頸,相關(guān)問題可以通過購買更多的計(jì)算資源解決。算法方面,一般來說,一個(gè)可以用深度學(xué)習(xí)解決的醫(yī)學(xué)圖像處理問題,之前都會有使用傳統(tǒng)機(jī)器學(xué)習(xí)的相關(guān)研究論文發(fā)表。因此,通過文獻(xiàn)調(diào)研的方式,可以了解采用傳統(tǒng)機(jī)器學(xué)習(xí)的準(zhǔn)確性,以此作為深度學(xué)習(xí)算法研發(fā)的一個(gè)基礎(chǔ)標(biāo)準(zhǔn),通過增加數(shù)據(jù)量的方式,利用深度學(xué)習(xí)算法提升算法的準(zhǔn)確性。如果之前在該方向沒有傳統(tǒng)機(jī)器學(xué)習(xí)的算法文章發(fā)表,則需要進(jìn)行更多的調(diào)研,從調(diào)研中了解沒有文章發(fā)表的真實(shí)原因。尤其是當(dāng)該類問題的數(shù)據(jù)很容易搜集,且臨床問題看上去很簡單直接的時(shí)候,更應(yīng)當(dāng)深挖這其中的問題,以免重蹈前人的覆轍。
數(shù)據(jù)是基于新一代人工智能技術(shù)研發(fā)產(chǎn)品的基礎(chǔ),在開始一款人工智能醫(yī)療器械的研發(fā)之前,我們應(yīng)當(dāng)充分調(diào)研數(shù)據(jù)——作為生產(chǎn)材料,是否能夠獲取我們希望得到的質(zhì)量與數(shù)量。與交通、安防等行業(yè)動(dòng)輒以TB 為單位的海量數(shù)據(jù)相比,醫(yī)療行業(yè)的信息化、數(shù)字化進(jìn)程相對滯后,病例數(shù)能夠達(dá)到上萬或者數(shù)十萬的量級已經(jīng)是十分困難。通過了解頭部醫(yī)院對于相關(guān)病例數(shù)的積累,可以大致了解數(shù)據(jù)量是否充足,同時(shí)結(jié)合之前機(jī)器學(xué)習(xí)文章中數(shù)據(jù)集的積累情況,可以基本判斷出研發(fā)所需的數(shù)據(jù)集是否有可能獲取到,或是需要多長時(shí)間的積累才可以達(dá)到比較理想的狀況。
除了做信息調(diào)研,與臨床醫(yī)生進(jìn)行密切的合作也是選擇正確研發(fā)方向的一個(gè)重要環(huán)節(jié)。醫(yī)學(xué)專家不僅有著豐富的臨床經(jīng)驗(yàn),清楚臨床需求,還有多年的臨床科研經(jīng)驗(yàn),對很多新的方向都有所嘗試,這些經(jīng)驗(yàn)是十分寶貴的。從臨床專家那里獲取真實(shí)的臨床需求,了解科研中遇到的問題、困難以及取得的成果,可以避免走彎路,有利于更好地尋找到適合自身的研發(fā)方向。
研發(fā)醫(yī)療器械產(chǎn)品,需要研發(fā)負(fù)責(zé)人對產(chǎn)品形態(tài)在整個(gè)醫(yī)療過程中扮演的角色、產(chǎn)品可以解決臨床工作中的什么問題有著清晰的理解和認(rèn)識,切忌盲目地“拿著錘子找釘子”。相比大眾消費(fèi)領(lǐng)域的需求可以被大多數(shù)人所理解,產(chǎn)品定義者本身作為一名消費(fèi)者能夠理解消費(fèi)者群體的需求,而醫(yī)療等行業(yè)具有較高的專業(yè)知識壁壘,醫(yī)生和患者之間存在著極大的專業(yè)知識的不對稱性,使得我們無法從一個(gè)患者的角度,來創(chuàng)造一個(gè)作為患者所理解的醫(yī)療需求,而是應(yīng)該更多地站在專業(yè)醫(yī)生的角度來思考問題。
臨床需求大體上可以分為兩類,一類是提升診斷和治療的準(zhǔn)確性,也就是更好地看?。涣硪活愂翘嵘t(yī)療效率,使得醫(yī)生在同樣的工作時(shí)長中能夠治療更多的患者。解決不同的需求所面臨的用戶也是不同的。由于我國醫(yī)療資源分配不均、醫(yī)生水平不等等問題,導(dǎo)致在不同的應(yīng)用場景下,實(shí)際需要實(shí)現(xiàn)的算法需求是不同的。例如,對于一個(gè)疾病篩查的任務(wù),需要盡量降低假陰性及漏診率。而對于一個(gè)需要在大型三甲醫(yī)院進(jìn)行確診的病例,特異性、誤診率可能是需要被首先考慮的指標(biāo)。由于人工智能算法的特性,使得即使是在同樣的數(shù)據(jù)和算法條件下構(gòu)建的最優(yōu)模型,在最終輸出結(jié)果時(shí),閾值的選擇還是決定了敏感性、特異性兩個(gè)性能指標(biāo)肯定是一升一降。而醫(yī)療器械要求算法具有極高的可重復(fù)性,不能隨意改動(dòng)算法參數(shù),影響輸出結(jié)果。因此,需要根據(jù)不同場景和使用者的不同需求情況,分別開發(fā)適用于這些場景的產(chǎn)品。
由于人工智能技術(shù)最早被應(yīng)用于互聯(lián)網(wǎng)產(chǎn)業(yè)之中,所以在醫(yī)療人工智能產(chǎn)品的開發(fā)中,除了傳統(tǒng)的醫(yī)療器械開發(fā)人員之外,也引入了很多具有互聯(lián)網(wǎng)產(chǎn)品開發(fā)背景的人員。互聯(lián)網(wǎng)產(chǎn)品的開發(fā)講求快速迭代,不斷更新,根據(jù)用戶的使用情況,及時(shí)反饋和修正,以實(shí)現(xiàn)最好的用戶體驗(yàn)。很多互聯(lián)網(wǎng)產(chǎn)品的功能迭代是以月、周甚至天為周期的,而傳統(tǒng)的醫(yī)療軟件的更新頻率通常是以年為單位。之所以醫(yī)療軟件更新的周期長,是因?yàn)檎麄€(gè)研發(fā)過程需要進(jìn)行嚴(yán)格的質(zhì)量控制,以保證最終輸出的產(chǎn)品不會在臨床使用過程中發(fā)生意外或產(chǎn)生風(fēng)險(xiǎn),而且醫(yī)療產(chǎn)品的每一次迭代都會產(chǎn)生巨大的研發(fā)成本。與很多互聯(lián)網(wǎng)產(chǎn)品選擇先上線供客戶試用,再不斷修正錯(cuò)誤的過程不同,對于直接關(guān)系到人體生命健康的產(chǎn)品,醫(yī)生也不敢在有潛在風(fēng)險(xiǎn)的情況下,貿(mào)然嘗試將該產(chǎn)品在臨床使用。
因此,對于剛剛進(jìn)入醫(yī)療行業(yè)的公司來講,建議加強(qiáng)企業(yè)對醫(yī)療器械質(zhì)量文化的研究和實(shí)踐,認(rèn)真分析并理解“互聯(lián)網(wǎng)思維”和“醫(yī)療器械質(zhì)量文化”的差異,在發(fā)揮自己優(yōu)勢的同時(shí),也要提升自己在醫(yī)療器械領(lǐng)域的研發(fā)水平。當(dāng)然,互聯(lián)網(wǎng)公司所擅長的敏捷開發(fā),也是醫(yī)療器械公司所追求的,但這非照搬“盲目提出功能需求、先開發(fā)后修改”的模式。一個(gè)經(jīng)濟(jì)且高效的開發(fā)方式,應(yīng)當(dāng)是在最初進(jìn)行產(chǎn)品整體設(shè)計(jì)之時(shí),對技術(shù)可行性、用戶需求、市場規(guī)模等多個(gè)方面進(jìn)行充分的調(diào)研,確定產(chǎn)品的適用范圍和最終功能形態(tài)之后,通過敏捷開發(fā)的形式,不斷向著最終的目標(biāo)前進(jìn),快速解決研發(fā)過程中遇到的各種問題。在保證產(chǎn)品質(zhì)量的同時(shí),盡快推進(jìn)產(chǎn)品的研發(fā)上市進(jìn)度。嚴(yán)格數(shù)據(jù)質(zhì)量控制與生產(chǎn)其他的人工智能產(chǎn)品不同,生產(chǎn)一款醫(yī)療器械產(chǎn)品,要同時(shí)關(guān)注安全、有效這兩個(gè)方面,國家相關(guān)部門對于產(chǎn)品的審批,也主要考察這兩個(gè)方面。國家藥監(jiān)局醫(yī)療器械技術(shù)審評中心發(fā)布的《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評要點(diǎn)》(以下簡稱《審評要點(diǎn)》)中提到:“從發(fā)展驅(qū)動(dòng)要素角度講,深度學(xué)習(xí)實(shí)為基于海量數(shù)據(jù)和高算力的黑盒算法。本審評要點(diǎn)重點(diǎn)關(guān)注軟件的數(shù)據(jù)質(zhì)量控制、算法泛化能力、臨床使用風(fēng)險(xiǎn),臨床使用風(fēng)險(xiǎn)應(yīng)當(dāng)考慮數(shù)據(jù)質(zhì)量控制、算法泛化能力的直接影響,以及算力所用計(jì)算資源(即運(yùn)行環(huán)境)失效的間接影響?!笨梢姅?shù)據(jù)質(zhì)量控制在新一代人工智能醫(yī)療產(chǎn)品的開發(fā)中發(fā)揮著重要作用。
在新一代人工智能醫(yī)療軟件的開發(fā)中,數(shù)據(jù)扮演著生產(chǎn)原材料的角色,因此對于生產(chǎn)原材料的質(zhì)量需要嚴(yán)格把關(guān)。《審評要點(diǎn)》中提到:“數(shù)據(jù)收集應(yīng)當(dāng)考慮數(shù)據(jù)來源的合規(guī)性和多樣性、目標(biāo)疾病流行病學(xué)特征、數(shù)據(jù)質(zhì)量控制要求。數(shù)據(jù)來源應(yīng)當(dāng)在合規(guī)性基礎(chǔ)上保證數(shù)據(jù)多樣性,以提高算法泛化能力,如盡可能來自多家、不同地域、不同層級的代表性臨床機(jī)構(gòu),盡可能來自多種、不同采集參數(shù)的采集設(shè)備?!币簿褪钦f在獲得數(shù)據(jù)的時(shí)候,既要考慮到數(shù)據(jù)的來源,也需要完整記錄數(shù)據(jù)相關(guān)的信息。
研發(fā)人員要根據(jù)產(chǎn)品功能定義的內(nèi)容,來確定該產(chǎn)品所需數(shù)據(jù)的完整性應(yīng)包含的具體內(nèi)容。而產(chǎn)品功能的定義要參照目前公認(rèn)的臨床指南、專家共識、檢查規(guī)范等業(yè)界規(guī)范標(biāo)準(zhǔn)進(jìn)行設(shè)定。在功能設(shè)計(jì)的時(shí)候,要保證功能的實(shí)現(xiàn)符合目前臨床的常規(guī)操作流程。例如:一款醫(yī)療器械軟件的功能定義為確定病灶位置,而病灶位置以及外觀屬性是可以通過影像數(shù)據(jù)準(zhǔn)確判斷的,醫(yī)生在臨床診斷時(shí),無需其他輔助信息單純獲取影像數(shù)據(jù)即可。如果該軟件功能定義為判斷病灶良惡性,而臨床上良惡性是通過病理結(jié)果確定的,則完整的數(shù)據(jù)至少應(yīng)包括影像+ 病理報(bào)告。同時(shí),如果是分類問題,每一類的數(shù)據(jù)量應(yīng)當(dāng)符合相應(yīng)算法的最低要求。
預(yù)實(shí)驗(yàn)確保標(biāo)注質(zhì)量數(shù)據(jù)標(biāo)注是人類借助計(jì)算機(jī)等工具,對各種類型的數(shù)據(jù)包括文本、圖片、語音、視頻等,完成分類、畫框、注釋、標(biāo)記并打上說明其某種屬性的標(biāo)簽的工作。整個(gè)加工過程都應(yīng)該在嚴(yán)格的質(zhì)控下進(jìn)行。除了在招募醫(yī)生時(shí)應(yīng)有較高的招募標(biāo)準(zhǔn)外,在招募完成后,還要對醫(yī)生重新進(jìn)行標(biāo)注能力的評估和考核。建議由醫(yī)學(xué)專家組對參與考核的醫(yī)生進(jìn)行標(biāo)注規(guī)范培訓(xùn),之后由醫(yī)學(xué)專家組統(tǒng)一制作一批具有正確答案的標(biāo)注數(shù)據(jù)作為考試庫數(shù)據(jù)。在篩選醫(yī)生時(shí),根據(jù)病種類型選擇相應(yīng)比例的考試題,測試應(yīng)保證覆蓋產(chǎn)品功能中要分辨的每一類病例。
在醫(yī)生資質(zhì)測試考核中,不僅要檢測醫(yī)生對病例判讀的準(zhǔn)確性,還要考察該醫(yī)生兩次診斷的一致性。標(biāo)注關(guān)注的重點(diǎn)是一致性,也就是說同一病例由不同標(biāo)注者或同一標(biāo)注者進(jìn)行兩次觀測,其結(jié)果在誤差允許范圍內(nèi)是一致的。評價(jià)一致性程度的方法很多,比如說Kappa值、Kendall 一致性系數(shù)、組內(nèi)相關(guān)系數(shù)(ICC)等。對于不同的數(shù)據(jù)類型和標(biāo)注方式,需要選擇合適的評價(jià)方式。
通過標(biāo)注資格篩選考試的醫(yī)生,可以認(rèn)為其專業(yè)水平達(dá)到項(xiàng)目的要求。但是在實(shí)際標(biāo)注中,無論是現(xiàn)場集中標(biāo)注還是遠(yuǎn)程在線標(biāo)注,標(biāo)注人員的工作狀態(tài)都有可能會出現(xiàn)波動(dòng)。所以需要對醫(yī)生每天的標(biāo)注狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測,以保證數(shù)據(jù)標(biāo)注的質(zhì)量不會出現(xiàn)大幅度波動(dòng)。監(jiān)測方式主要有以下幾種:
第一,標(biāo)注時(shí)間監(jiān)測。在培訓(xùn)測試階段,可以通過記錄測試過程中醫(yī)生對于每一個(gè)病例的標(biāo)注時(shí)間,建立每一位標(biāo)注者的標(biāo)注時(shí)間分布。在實(shí)際標(biāo)注階段,可以通過不斷比對每一個(gè)病例的標(biāo)注時(shí)間、該時(shí)間在該標(biāo)注人員標(biāo)注時(shí)間分布中的位置來判斷標(biāo)注的狀態(tài)。若標(biāo)注時(shí)間多次出現(xiàn)過長或過短的情況,則需要對標(biāo)注人員的狀態(tài)和數(shù)據(jù)的質(zhì)量同時(shí)進(jìn)行評估。
第二,標(biāo)注一致性監(jiān)測。在標(biāo)注過程中,引入部分病例,讓同一名標(biāo)注人員進(jìn)行二次標(biāo)注,并計(jì)算同一個(gè)人兩次標(biāo)注之間的一致性,以確保標(biāo)注人員的標(biāo)注一致性水準(zhǔn)始終能夠達(dá)到項(xiàng)目的要求,保證整體標(biāo)注的一致性。第三,標(biāo)注準(zhǔn)確率監(jiān)測。在標(biāo)注過程中,引入部分醫(yī)學(xué)專家提供的帶有標(biāo)準(zhǔn)標(biāo)注答案的病例,計(jì)算標(biāo)注人員對于帶標(biāo)準(zhǔn)答案病例標(biāo)注的準(zhǔn)確性,用以評估標(biāo)注人員的實(shí)時(shí)狀態(tài)。
由于開發(fā)深度學(xué)習(xí)類產(chǎn)品所需的數(shù)據(jù)標(biāo)注量極大,標(biāo)注過程的時(shí)長、費(fèi)用都會十分高,因此控制標(biāo)注過程的質(zhì)量以及設(shè)計(jì)合理的標(biāo)注方法和流程,能夠控制標(biāo)注成本,大大降低由于設(shè)計(jì)不合理造成的返工和成本增加。
為了避免在大量數(shù)據(jù)標(biāo)注后才發(fā)現(xiàn)問題,推薦進(jìn)行小批量標(biāo)注預(yù)實(shí)驗(yàn),用以檢驗(yàn)方案的可行性。即在大批次數(shù)據(jù)標(biāo)注之前,先選取少量病例數(shù)進(jìn)行標(biāo)注預(yù)實(shí)驗(yàn),以檢驗(yàn)標(biāo)注培訓(xùn)效果和標(biāo)注醫(yī)生水平,檢驗(yàn)標(biāo)注方案和標(biāo)注策略是否可行,為確立最終的標(biāo)注策略提供數(shù)據(jù)分布以及標(biāo)注質(zhì)量評定的參考,同時(shí)預(yù)估標(biāo)注耗時(shí)和成本。標(biāo)注預(yù)實(shí)驗(yàn)階段,應(yīng)選取超量的醫(yī)生(與最終實(shí)際標(biāo)注相比)進(jìn)行重復(fù)標(biāo)注,以便評價(jià)不同標(biāo)注質(zhì)量控制和標(biāo)注醫(yī)生的能力。如果在小樣本測試中發(fā)現(xiàn)多名醫(yī)生標(biāo)注一致率不高等問題,則應(yīng)當(dāng)重新回顧產(chǎn)品需求的設(shè)計(jì)和功能定義,確定該問題是否可以通過該種標(biāo)注形式來達(dá)到預(yù)期效果。
構(gòu)建一個(gè)人工智能產(chǎn)品,把算法模型從0訓(xùn)練到可以達(dá)到臨床實(shí)際應(yīng)用的程度,需要嚴(yán)格管理每一個(gè)環(huán)節(jié)質(zhì)量。好的標(biāo)注數(shù)據(jù)質(zhì)量就像營養(yǎng)豐富、均衡、干凈衛(wèi)生的美食一樣,輸入進(jìn)模型可以幫助人工智能模型健康、茁壯的成長。但是如果輸入了質(zhì)量不達(dá)標(biāo)的訓(xùn)練數(shù)據(jù),則會造成嚴(yán)重的“先天不足”,影響后天的成長?!澳サ恫徽`砍柴工”,正確的產(chǎn)品設(shè)計(jì)、高質(zhì)量的數(shù)據(jù)、準(zhǔn)確的標(biāo)注是一個(gè)醫(yī)療人工智能產(chǎn)品能夠成功的重要條件。我們既要做到快速迭代,又要保證資源的合理利用。我們可以通過前期的充分調(diào)研論證與思考,配合小批量的預(yù)實(shí)驗(yàn)來驗(yàn)證方案的可行性。這既可以實(shí)現(xiàn)快速的多輪迭代,又可以避免資源的大量非必要支出,增加每輪迭代的有效性。我們在研發(fā)過程中既要充分學(xué)習(xí)互聯(lián)網(wǎng)行業(yè)快速迭代開發(fā)的機(jī)動(dòng)性,又要保證遵循傳統(tǒng)醫(yī)療器械行業(yè)審評中“安全、有效”的基本要求,只有這樣,才能設(shè)計(jì)出好的基于新一代人工智能技術(shù)的醫(yī)療器械軟件。