草莓视频app下载|51草莓视频下载app|草莓视频在线观看无限看

logo

會(huì)員登錄

用戶登錄 評(píng)委登錄
一周內(nèi)自動(dòng)登錄 建議在公共電腦上取消此選項(xiàng)
一周內(nèi)自動(dòng)登錄 建議在公共電腦上取消此選項(xiàng)
依據(jù)工信部新規(guī)要求,運(yùn)營(yíng)商部署做出調(diào)整,現(xiàn)部分用戶無(wú)法獲取短信驗(yàn)證碼(移動(dòng)運(yùn)營(yíng)商為主)。如遇收不到短信驗(yàn)證碼情況,請(qǐng)更換其他手機(jī)號(hào)(聯(lián)通、電信)嘗試,有疑問(wèn)請(qǐng)電話咨詢:18912606905、18136127515。
一周內(nèi)自動(dòng)登錄 建議在公共電腦上取消此選項(xiàng)
手機(jī)驗(yàn)證碼登錄 還未賬號(hào)?立即注冊(cè)

會(huì)員注冊(cè)

*依據(jù)工信部新規(guī)要求,運(yùn)營(yíng)商部署做出調(diào)整,現(xiàn)部分用戶無(wú)法獲取短信驗(yàn)證碼(移動(dòng)運(yùn)營(yíng)商為主)。如遇收不到短信驗(yàn)證碼情況,請(qǐng)更換其他手機(jī)號(hào)(聯(lián)通、電信)嘗試,有疑問(wèn)請(qǐng)電話咨詢:18912606905、18136127515。
已有賬號(hào)?
醫(yī)械創(chuàng)新資訊
醫(yī)械創(chuàng)新資訊

英偉達(dá)、騰訊、商湯……借助隱私計(jì)算在醫(yī)療AI做了哪些探索?

日期:2021-06-28
瀏覽量:2320


在全球,有關(guān)數(shù)據(jù)隱私及安全的保護(hù)運(yùn)動(dòng)已經(jīng)沸沸揚(yáng)揚(yáng)地開(kāi)展了一段時(shí)間。早在2018年,號(hào)稱(chēng)“史上最嚴(yán)”及“三十年來(lái)數(shù)據(jù)安全最大變動(dòng)”的歐盟GDPR(《通用數(shù)據(jù)保護(hù)條例》)已經(jīng)引發(fā)了全球廣泛關(guān)注,并推動(dòng)了各國(guó)和地區(qū)對(duì)數(shù)據(jù)隱私及安全的重視。


2021年6月10日,中華人民共和國(guó)第十三屆全國(guó)人民代表大會(huì)常務(wù)委員會(huì)第二十九次會(huì)議正式通過(guò)并公布《數(shù)據(jù)安全法》,并將于2021年9月1日施行。它將與已經(jīng)頒布的《網(wǎng)絡(luò)安全法》及正在審議中的《個(gè)人信息保護(hù)法》一起代表我國(guó)對(duì)數(shù)據(jù)隱私及安全的重視,共同構(gòu)建起我國(guó)數(shù)字時(shí)代有關(guān)信息的法律體系。


在這種背景下,數(shù)據(jù)隱私和安全得到空前重視,且在未來(lái)將毫無(wú)疑問(wèn)地趨于嚴(yán)格。醫(yī)療AI模型開(kāi)發(fā)迭代必須的醫(yī)療數(shù)據(jù)獲取變得愈發(fā)困難。以聯(lián)邦學(xué)習(xí)為代表的隱私計(jì)算為這一問(wèn)題提供了全新的解題思路,并在最近兩年獲得了廣泛關(guān)注。兩年過(guò)去了,以聯(lián)邦學(xué)習(xí)為代表的隱私計(jì)算如今有什么進(jìn)展呢?動(dòng)脈網(wǎng)對(duì)此進(jìn)行了梳理。


簡(jiǎn)要回顧一下聯(lián)邦學(xué)習(xí)是什么?


簡(jiǎn)單來(lái)說(shuō),聯(lián)邦學(xué)習(xí)是一種加密的分布式機(jī)器學(xué)習(xí)框架,目標(biāo)是在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎(chǔ)上對(duì)AI模型進(jìn)行訓(xùn)練的手段。這一技術(shù)最早由谷歌提出,并在Google I/O 2019大會(huì)上首次展示了實(shí)際落地的應(yīng)用場(chǎng)景。


谷歌當(dāng)時(shí)展示的G-Board輸入法使用了這種新的模型訓(xùn)練方式,將整個(gè)模型學(xué)習(xí)過(guò)程分發(fā)到用戶手機(jī),在本地完成分配的模型訓(xùn)練任務(wù),隨后將訓(xùn)練完成的數(shù)據(jù)上傳匯總幫助模型訓(xùn)練。因?yàn)橛?xùn)練過(guò)程在本地完成,且上傳數(shù)據(jù)只涉及模型訓(xùn)練所需的必要數(shù)據(jù),從而防止了數(shù)據(jù)泄露。


醫(yī)療AI模型的完善同樣需要大量數(shù)據(jù)的訓(xùn)練。放射科醫(yī)生通常需要工作15年時(shí)間,平均每年經(jīng)手至少15000個(gè)病例才算小有所成。這意味著人工智能需要對(duì)同等規(guī)模病例(22.5萬(wàn))的學(xué)習(xí)才能達(dá)到放射科專(zhuān)家水平。遺憾的是,目前最大的開(kāi)放數(shù)據(jù)庫(kù)僅有10萬(wàn)病例的規(guī)模,離滿足人工智能訓(xùn)練的要求尚有一定距離。


事實(shí)上,各個(gè)醫(yī)療機(jī)構(gòu)可能擁有包含數(shù)十萬(wàn)條記錄和圖像的檔案,但因?yàn)殡[私和法規(guī)的原因,這些數(shù)據(jù)完全是彼此孤立無(wú)法使用的。無(wú)論是人工智能企業(yè),或是正在使用人工智能的醫(yī)療機(jī)構(gòu)都只能依賴手頭僅有的數(shù)據(jù)來(lái)源。高質(zhì)量訓(xùn)練數(shù)據(jù)的嚴(yán)重匱乏,嚴(yán)重阻礙了醫(yī)療AI的更進(jìn)一步。


此外,完全依賴開(kāi)放數(shù)據(jù)庫(kù)訓(xùn)練的模型,很有可能缺乏真正的臨床價(jià)值。2021年,劍橋大學(xué)對(duì)公開(kāi)發(fā)布的有關(guān)醫(yī)療AI的2212篇論文進(jìn)行篩選,從中選出62篇可以達(dá)到研究人員設(shè)定的較高的入選標(biāo)準(zhǔn)的論文。然而,研究人員最終發(fā)現(xiàn)所有62篇實(shí)際上都沒(méi)有潛在的臨床應(yīng)用價(jià)值。


數(shù)據(jù)集質(zhì)量和規(guī)模嚴(yán)重不足是導(dǎo)致這一問(wèn)題的重要原因;此外,僅僅采用來(lái)源于開(kāi)放數(shù)據(jù)庫(kù)的公共數(shù)據(jù)集也是原因之一。隨著時(shí)間的推移,公共數(shù)據(jù)集不斷發(fā)展并融合新的數(shù)據(jù),很可能導(dǎo)致最初的結(jié)果無(wú)法復(fù)現(xiàn)。


劍橋大學(xué)的研究人員提出了三個(gè)觀點(diǎn):第一,公共數(shù)據(jù)集可能導(dǎo)致嚴(yán)重的偏差風(fēng)險(xiǎn),謹(jǐn)慎使用。第二,為了使模型適用于不同的群體和獨(dú)立的外部數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)應(yīng)該保持多樣性和適當(dāng)?shù)囊?guī)模。第三,除了更高質(zhì)量的數(shù)據(jù)集外,還需要可復(fù)現(xiàn)和外部驗(yàn)證的證明,這樣才能增加模型被推進(jìn)并整合到未來(lái)臨床試驗(yàn)中的可能性。


然而,醫(yī)療數(shù)據(jù)包含了大量患者隱私。醫(yī)療機(jī)構(gòu)或者患者絕對(duì)不會(huì)因?yàn)槟P陀?xùn)練愿意承擔(dān)隱私泄露的風(fēng)險(xiǎn)。聯(lián)邦學(xué)習(xí)則可以讓多個(gè)機(jī)構(gòu)利用自己的數(shù)據(jù)進(jìn)行多次迭代訓(xùn)練模型,隨后將訓(xùn)練完成的模型上傳共享。這個(gè)過(guò)程并不會(huì)涉及到敏感的臨床數(shù)據(jù)或病人隱私,從而解決了大眾的擔(dān)憂。


假設(shè)三家醫(yī)院決定聯(lián)合起來(lái)建立一個(gè)中心深度神經(jīng)網(wǎng)絡(luò)用于幫助自動(dòng)分析腦腫瘤圖像,并選擇使用客戶機(jī)-服務(wù)器的聯(lián)邦學(xué)習(xí)。在整個(gè)架構(gòu)中,中心服務(wù)器將維護(hù)全局深度神經(jīng)網(wǎng)絡(luò)。每個(gè)參與的醫(yī)院將獲得一個(gè)這個(gè)神經(jīng)網(wǎng)絡(luò)模型的副本,以便使用自己的數(shù)據(jù)進(jìn)行訓(xùn)練。


一旦在本地對(duì)模型進(jìn)行了幾次迭代訓(xùn)練,參與者就會(huì)將模型的更新版本發(fā)送回中心服務(wù)器。這個(gè)過(guò)程只發(fā)送訓(xùn)練完成的模型及其參數(shù),而不會(huì)像以往的方式發(fā)送病例數(shù)據(jù)。同時(shí),傳輸數(shù)據(jù)經(jīng)過(guò)特殊加密,具有很好的保護(hù)效果。


在收到各地上傳的更新模型后,服務(wù)器將匯總各地上傳的、更新后的局部模型,并對(duì)全局模型進(jìn)行更新。隨后,服務(wù)器會(huì)與參與機(jī)構(gòu)共享更新后的模型,以便它們能夠繼續(xù)進(jìn)行本地訓(xùn)練。


不難看出,在整個(gè)過(guò)程中,共享模型接觸到的數(shù)據(jù)范圍比任何單個(gè)組織內(nèi)部擁有的數(shù)據(jù)范圍都要大得多,訓(xùn)練也更為有效。與此同時(shí),因?yàn)橹恍枰獋鬏斈P蛿?shù)據(jù),其對(duì)網(wǎng)絡(luò)傳輸帶寬的要求也降低了很多。


此外,全局模型的訓(xùn)練并不依賴于特定的數(shù)據(jù)。因此,如果其中一家醫(yī)院離開(kāi)模型訓(xùn)練團(tuán)隊(duì)也不會(huì)停止模型的訓(xùn)練。同樣,一家新醫(yī)院可以隨時(shí)選擇加入該計(jì)劃以加速模型訓(xùn)練。


聯(lián)邦學(xué)習(xí)使幾個(gè)組織能夠在模型開(kāi)發(fā)上進(jìn)行協(xié)作,但不需要彼此共享敏感的臨床數(shù)據(jù)及病人隱私。業(yè)界希望這種新的方式能夠解決目前AI遇到的數(shù)據(jù)困境。相比傳統(tǒng)的模式,聯(lián)邦學(xué)習(xí)還可以鼓勵(lì)不同的機(jī)構(gòu)合作創(chuàng)建一個(gè)可以使所有人受益的模型。


兩年來(lái),聯(lián)邦學(xué)習(xí)在醫(yī)療上做了哪些探索?


自推出以來(lái),業(yè)界就高度重視聯(lián)邦學(xué)習(xí),并發(fā)布了數(shù)個(gè)開(kāi)源框架。這些開(kāi)源框架分別由谷歌(Tensorflow Federated)、OpenMined(Pysyft)、百度(PaddleFL)和微眾銀行(Fate)等牽頭。與此同時(shí),英偉達(dá)Clara和微眾銀行也推出了聯(lián)邦學(xué)習(xí)的商業(yè)化產(chǎn)品。目前,聯(lián)邦學(xué)習(xí)已經(jīng)在各行各業(yè)開(kāi)花結(jié)果,醫(yī)療應(yīng)用也是其中之一。


醫(yī)療影像上的應(yīng)用


2019年10月,英偉達(dá)(NVIDIA)將聯(lián)邦學(xué)習(xí)技術(shù)引入了旗下專(zhuān)門(mén)針對(duì)醫(yī)療影像領(lǐng)域的Clara平臺(tái),并與英國(guó)倫敦國(guó)王學(xué)院合作發(fā)布了用于醫(yī)學(xué)影像分析且具有隱私保護(hù)能力的聯(lián)邦學(xué)習(xí)系統(tǒng)。


通過(guò)支持聯(lián)邦學(xué)習(xí)的Clara平臺(tái),研究人員可以極大地簡(jiǎn)化這一系統(tǒng)的部署難度,并能安全方便地對(duì)聯(lián)邦學(xué)習(xí)中心服務(wù)器和協(xié)作客戶端進(jìn)行配置,提供啟動(dòng)聯(lián)邦學(xué)習(xí)項(xiàng)目所需的一切,包括應(yīng)用程序容器和初始AI模型。


參與這一項(xiàng)目的醫(yī)院使用與醫(yī)院影像設(shè)備協(xié)作的Clara AI輔助注釋工具來(lái)標(biāo)記自家患者的影像數(shù)據(jù)。使用預(yù)先訓(xùn)練的模型和遷移學(xué)習(xí)技術(shù),Clara能夠幫助放射科醫(yī)生進(jìn)行標(biāo)記,將復(fù)雜的3D研究時(shí)間從幾小時(shí)減少到幾分鐘。


各家醫(yī)院將利用這些數(shù)據(jù),在本地EGX服務(wù)器上訓(xùn)練模型。本地訓(xùn)練結(jié)果通過(guò)安全鏈接共享回聯(lián)邦學(xué)習(xí)中心服務(wù)器,并由中心服務(wù)器對(duì)全局模型進(jìn)行更新。隨后,更新后的模型會(huì)與各醫(yī)院服務(wù)器同步,以便各醫(yī)院對(duì)新模型進(jìn)行進(jìn)一步訓(xùn)練。


全球領(lǐng)先的醫(yī)療健康機(jī)構(gòu)——包括美國(guó)放射學(xué)院(簡(jiǎn)稱(chēng)ACR ,American College of Radiology)、麻省總醫(yī)院(Massachusetts General Hospital)和加州大學(xué)洛杉磯分校醫(yī)療中心(UCLA Medical Center)——都在搶先采用該技術(shù),致力于為自己的醫(yī)生、患者和醫(yī)療設(shè)施開(kāi)發(fā)個(gè)性化的AI應(yīng)用,他們的醫(yī)療數(shù)據(jù)、應(yīng)用程序和設(shè)備都在增加,同時(shí)患者隱私必須得到保護(hù)。


ACR在其國(guó)家醫(yī)療成像平臺(tái)AI-LAB中引入了NVIDIA Clara聯(lián)邦學(xué)習(xí),從而幫助ACR的38000名醫(yī)療成像會(huì)員安全地構(gòu)建、共享、調(diào)整并驗(yàn)證AI模型。


2020年9月,由英偉達(dá)、ACR、巴西DASA(拉丁美洲最大的第三方醫(yī)學(xué)實(shí)驗(yàn)室)、美國(guó)麻省總醫(yī)院、妙佑醫(yī)療集團(tuán)、斯坦福大學(xué)、麻省理工學(xué)院上線了合作項(xiàng)目,通過(guò)聯(lián)邦學(xué)習(xí)在真實(shí)世界協(xié)作環(huán)境中訓(xùn)練醫(yī)療影像AI模型,用于乳腺BI-RADS分類(lèi)輔助診斷。


放射科醫(yī)生在分析乳房X光結(jié)果時(shí),會(huì)一邊嘗試尋找腫瘤一邊評(píng)估乳房組織密度。所謂乳房組織密度是指女性乳房X光檢查中出現(xiàn)的纖維和乳腺組織量度。根據(jù)影像特征,被分為四大類(lèi)型:脂肪類(lèi)、散在纖維腺體類(lèi)、不均勻致密類(lèi)和極度致密類(lèi)。


醫(yī)生進(jìn)行乳房組織密度分類(lèi)的原因很簡(jiǎn)單——乳房密度高的女性患乳腺癌的風(fēng)險(xiǎn)要高4-5倍。根據(jù)統(tǒng)計(jì),這類(lèi)人群在美國(guó)40-74歲女性中占大約一半。因此,為醫(yī)生提供高質(zhì)量的乳房密度分類(lèi)輔助分類(lèi)工具可以更好地評(píng)估患者的癌癥風(fēng)險(xiǎn)。


盡管所有參與項(xiàng)目機(jī)構(gòu)共享的數(shù)據(jù)集(乳腺學(xué)系統(tǒng)、類(lèi)分布和數(shù)據(jù)集大小)存在巨大差異,但AI模型訓(xùn)練依然獲得成功,并展示了較好的效果。比較而言,使用聯(lián)邦學(xué)習(xí)訓(xùn)練的模型比只接受各機(jī)構(gòu)本地?cái)?shù)據(jù)培訓(xùn)的模型平均性能好6.3%,模型的可概括性相對(duì)提高了 45.8%。


新冠肺炎患者氧氣用量預(yù)測(cè)


聯(lián)邦學(xué)習(xí)在新冠病毒肆虐全球之際也做出了自己的貢獻(xiàn)——英偉達(dá)和美國(guó)聯(lián)盟醫(yī)療體系(麻省總醫(yī)院和布列根和婦女醫(yī)院共建)的研究人員開(kāi)發(fā)了一個(gè)AI模型。該模型可以通過(guò)胸部X光片、患者生命體征和化驗(yàn)結(jié)果,來(lái)預(yù)測(cè)急診室內(nèi)的新冠肺炎患者是否需要在初步檢查后的幾小時(shí)或幾天中吸氧,進(jìn)而預(yù)測(cè)急救室需要的氧氣量,及判斷患者是否需要轉(zhuǎn)入ICU。


為了開(kāi)發(fā)一種可靠的AI模型,并將其推廣到盡可能多的醫(yī)院,英偉達(dá)和美國(guó)聯(lián)盟醫(yī)療體系啟動(dòng)了名為EXAM(EMR CXR AI Model)的計(jì)劃。這項(xiàng)計(jì)劃與來(lái)自全球的20家醫(yī)院合作,是目前規(guī)模最大、最多樣化的聯(lián)邦學(xué)習(xí)計(jì)劃之一。


這些醫(yī)院分布在北美洲、南美洲、亞洲和歐洲,數(shù)據(jù)涵蓋了不同人種患者的數(shù)據(jù)集。每家醫(yī)院都使用NVIDIA Clara來(lái)訓(xùn)練其本地模型并參與EXAM。在整個(gè)過(guò)程中,各家機(jī)構(gòu)無(wú)需將患者的胸部X光片和其他保密信息統(tǒng)一匯總,而是使用安全的內(nèi)部服務(wù)器來(lái)存儲(chǔ)其數(shù)據(jù)。


全局深度神經(jīng)網(wǎng)絡(luò)模型則托管在亞馬遜AWS獨(dú)立服務(wù)器上,每家參與合作的醫(yī)院都可獲得一份副本用于在自有數(shù)據(jù)集上進(jìn)行訓(xùn)練。


基于模型對(duì)各種分布式數(shù)據(jù)進(jìn)行訓(xùn)練,最終項(xiàng)目開(kāi)發(fā)完成AUC值為0.94(目標(biāo)為1.0)的模型僅僅耗時(shí)兩周,其預(yù)測(cè)住院病人所需氧氣量的能力非常出色。由于吸氧對(duì)于新冠肺炎患者來(lái)說(shuō)至關(guān)重要,這一技術(shù)平臺(tái)已被集成至Clara NGC之中,將挽救不少生命。


可穿戴醫(yī)療健康設(shè)備


在醫(yī)療健康領(lǐng)域有著重要用途的可穿戴設(shè)備也在引入聯(lián)邦學(xué)習(xí)??纱┐髟O(shè)備可以準(zhǔn)確記錄用戶的日常活動(dòng)及體征信息,對(duì)于部分疾病的預(yù)防和早篩極有價(jià)值。同時(shí),可穿戴設(shè)備在心理健康領(lǐng)域、用于患者或老人的跌倒檢測(cè)以及健身鍛煉監(jiān)控上也有應(yīng)用價(jià)值。全球可穿戴醫(yī)療健康設(shè)備在近年得到了突破,出貨量屢創(chuàng)新高,積累了海量的數(shù)據(jù)。


圖片

傳統(tǒng)的方法對(duì)于可穿戴設(shè)備來(lái)說(shuō)是個(gè)巨大的難點(diǎn)(圖片來(lái)自IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare)


然而,如何應(yīng)用這些數(shù)據(jù)有兩大難點(diǎn)。首先,這些數(shù)據(jù)各自為政。假設(shè)用戶使用了兩款來(lái)自不同品牌的可穿戴設(shè)備,這些數(shù)據(jù)即使上傳至云端也是彼此隔離無(wú)法分享的。更進(jìn)一步來(lái)說(shuō),隨著各國(guó)或地區(qū)加強(qiáng)數(shù)據(jù)安全立法,對(duì)數(shù)據(jù)存儲(chǔ)的地理位置也提出要求。同一品牌設(shè)備商要想獲取存儲(chǔ)在世界各地的數(shù)據(jù)也非常困難。這將導(dǎo)致訓(xùn)練模型所用的數(shù)據(jù)無(wú)論在質(zhì)量還是數(shù)量上都很難達(dá)到標(biāo)準(zhǔn)。


其次,傳統(tǒng)的模型訓(xùn)練方法是通用的,缺乏個(gè)性化和針對(duì)性。然而,不同的用戶其實(shí)有著不同的體征特點(diǎn),基于通用模型的可穿戴設(shè)備并不能最好地匹配他們的需求。


2020年,中科院泛在計(jì)算系統(tǒng)研究中心、中國(guó)科學(xué)院大學(xué)、深圳鵬城實(shí)驗(yàn)室和微軟亞洲研究院聯(lián)合提出了FedHealth架構(gòu),也是首個(gè)針對(duì)可穿戴醫(yī)療健康設(shè)備的聯(lián)邦遷移學(xué)習(xí)框架。


圖片

聯(lián)邦學(xué)習(xí)可以有效地將分散的可穿戴設(shè)備數(shù)據(jù)予以利用(圖片來(lái)自IEEE Intelligent Systems , Volume: 35 Issue: 4:FedHealth: A Federated Transfer Learning Framework for Wearable Healthcare)


通過(guò)聯(lián)邦學(xué)習(xí)和同態(tài)加密,F(xiàn)edHealth得以在保證用戶數(shù)據(jù)隱私和安全的前提下為訓(xùn)練強(qiáng)勁模型提供源源不斷的數(shù)據(jù)。在全局模型完成訓(xùn)練后,它又可以通過(guò)引入遷移學(xué)習(xí)來(lái)實(shí)現(xiàn)個(gè)性化需求。此外,這一可以增量升級(jí)的框架還可以進(jìn)一步擴(kuò)展并部署到多種醫(yī)療健康應(yīng)用上以進(jìn)一步在真實(shí)世界中增強(qiáng)學(xué)習(xí)能力。


通過(guò)對(duì)30位實(shí)驗(yàn)參與者采集的總計(jì)10299組數(shù)據(jù)進(jìn)行的實(shí)驗(yàn),F(xiàn)edHealth對(duì)于可穿戴設(shè)備行為識(shí)別的準(zhǔn)確率有一定提升。相比未采用聯(lián)邦學(xué)習(xí)方式的深度學(xué)習(xí),F(xiàn)edHealth訓(xùn)練模型的準(zhǔn)確率提升了5.3%。


腦卒中預(yù)測(cè)


作為公認(rèn)最早研究“聯(lián)邦學(xué)習(xí)”的國(guó)際人工智能專(zhuān)家之一,微眾銀行首席人工智能官楊強(qiáng)教授推動(dòng)了微眾銀行AI團(tuán)隊(duì)成為國(guó)內(nèi)聯(lián)邦學(xué)習(xí)技術(shù)的引領(lǐng)者,并將其應(yīng)用于實(shí)際業(yè)務(wù)。目前,微眾銀行已經(jīng)在金融、醫(yī)療等行業(yè)領(lǐng)域落地應(yīng)用聯(lián)邦學(xué)習(xí)。


2018年12月,微眾銀行更是發(fā)起了關(guān)于《聯(lián)邦學(xué)習(xí)架構(gòu)和應(yīng)用規(guī)范》的標(biāo)準(zhǔn)立項(xiàng),并獲得了IEEE標(biāo)準(zhǔn)委員會(huì)的立項(xiàng)批準(zhǔn)。來(lái)自國(guó)內(nèi)外的多位知名學(xué)者和技術(shù)專(zhuān)家紛紛加入標(biāo)準(zhǔn)工作組,參與到聯(lián)邦學(xué)習(xí)IEEE標(biāo)準(zhǔn)的建設(shè)中。


2019年,騰訊天衍實(shí)驗(yàn)室和微眾銀行在醫(yī)療大數(shù)據(jù)、醫(yī)學(xué)影像輔助診斷等領(lǐng)域展開(kāi)合作,并聯(lián)合開(kāi)發(fā)了基于醫(yī)療聯(lián)邦學(xué)習(xí)框架的“腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型”。模型利用NLP技術(shù)對(duì)電子病歷進(jìn)行處理,通過(guò)分析識(shí)別與腦卒中高度關(guān)聯(lián)的癥狀來(lái)預(yù)測(cè)病人腦卒中發(fā)病風(fēng)險(xiǎn)。


我國(guó)中部某市五家醫(yī)院(其中三家為該市頭部三甲醫(yī)院)參與了研究,并利用各自的電子病歷數(shù)據(jù)對(duì)模型進(jìn)行了訓(xùn)練。結(jié)果顯示,利用聯(lián)邦學(xué)習(xí)訓(xùn)練的模型預(yù)測(cè)準(zhǔn)確率高達(dá)80%。同時(shí),大型三甲醫(yī)院數(shù)據(jù)資源可幫助醫(yī)療服務(wù)匱乏病例少小型醫(yī)院在模型預(yù)測(cè)指標(biāo)上提升10-20%。


2020年8月,騰訊醫(yī)療健康與微眾銀行成立聯(lián)合實(shí)驗(yàn)室,結(jié)合騰訊天衍實(shí)驗(yàn)室在醫(yī)療影像、醫(yī)療機(jī)器學(xué)習(xí)與自然語(yǔ)言處理的技術(shù)積累,以及微眾銀行AI團(tuán)隊(duì)在聯(lián)邦學(xué)習(xí)上的領(lǐng)先技術(shù),聯(lián)合實(shí)驗(yàn)室將進(jìn)一步攻堅(jiān)聯(lián)邦學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用。


藥物發(fā)現(xiàn)


基于AI在藥物發(fā)現(xiàn)上的巨大潛力,聯(lián)邦學(xué)習(xí)也已經(jīng)在這一場(chǎng)景有所進(jìn)展。2020年12月,同濟(jì)大學(xué)生物信息系與微眾銀行合作,通過(guò)聯(lián)邦學(xué)習(xí)模擬多個(gè)制藥機(jī)構(gòu)之間的藥物協(xié)同開(kāi)發(fā),助力制藥機(jī)構(gòu)在保障自身藥物數(shù)據(jù)隱私安全的前提下進(jìn)行協(xié)同藥物發(fā)現(xiàn)。


AI藥物發(fā)現(xiàn)面臨的最大痛點(diǎn)在于該領(lǐng)域復(fù)雜的知識(shí)產(chǎn)權(quán)和相關(guān)的經(jīng)濟(jì)利益使得制藥機(jī)構(gòu)之間進(jìn)行數(shù)據(jù)直接共享和合作幾乎不可能。通過(guò)在藥物小分子領(lǐng)域引入聯(lián)邦學(xué)習(xí)進(jìn)行藥物協(xié)同開(kāi)發(fā),可以在保護(hù)藥物小分子結(jié)構(gòu)隱私的前提條件下,獲得與直接整合多機(jī)構(gòu)小分子數(shù)據(jù)進(jìn)行QSAR建模相同或者類(lèi)似的模型預(yù)測(cè)效果。這或許能夠幫助實(shí)現(xiàn)合作“破冰”。


研究首次嘗試在藥物小分子領(lǐng)域探索使用聯(lián)邦學(xué)習(xí)范式進(jìn)行藥物協(xié)同開(kāi)發(fā)的可行性,結(jié)合微眾銀行的聯(lián)邦學(xué)習(xí)開(kāi)源平臺(tái)FATE,開(kāi)發(fā)了基于聯(lián)邦學(xué)習(xí)的協(xié)作藥物發(fā)現(xiàn)平臺(tái)FL-QSAR。


研究團(tuán)隊(duì)通過(guò)對(duì)于包含了15個(gè)藥靶的QSAR 基準(zhǔn)數(shù)據(jù)來(lái)構(gòu)建深度學(xué)習(xí)模型,進(jìn)行QSAR建模以及多制藥機(jī)構(gòu)環(huán)境下的協(xié)同藥物開(kāi)發(fā)模擬。研究結(jié)果顯示了將聯(lián)邦學(xué)習(xí)用于藥物發(fā)現(xiàn)具有兩方面的優(yōu)勢(shì)。


首先,多個(gè)制藥機(jī)構(gòu)通過(guò)FL-QSAR進(jìn)行協(xié)同QSAR建模,效果顯著優(yōu)于單機(jī)構(gòu)僅使用其私有數(shù)據(jù)本地QSAR建模。其次,通過(guò)特定的模型優(yōu)化,F(xiàn)L-QSAR可以在保護(hù)藥物小分子結(jié)構(gòu)隱私的前提條件下,獲得與直接整合多機(jī)構(gòu)小分子數(shù)據(jù)進(jìn)行QSAR建模相同或者類(lèi)似的模型預(yù)測(cè)效果。


這是一種有效的藥物協(xié)同發(fā)現(xiàn)的解決方案,打破了傳統(tǒng)QSAR建模時(shí)不同制藥機(jī)構(gòu)之間的數(shù)據(jù)無(wú)法直接共享的壁壘,有助于在隱私保護(hù)的前提條件下進(jìn)行協(xié)同藥物發(fā)現(xiàn),并得到了國(guó)家專(zhuān)項(xiàng)項(xiàng)目基金資助。


隱私計(jì)算的未來(lái)——更優(yōu)的聯(lián)邦學(xué)習(xí)及去中心化的蜂群計(jì)算


盡管問(wèn)世時(shí)間不長(zhǎng),但聯(lián)邦學(xué)習(xí)架構(gòu)本身也一直在得到改進(jìn)。比如,2020年,商湯科技就攜手美國(guó)羅格斯大學(xué)計(jì)算機(jī)系計(jì)算生物醫(yī)學(xué)成像和建模研究中心,發(fā)表了一項(xiàng)新的研究成果——利用基于分布式生成對(duì)抗網(wǎng)絡(luò)(GAN)的結(jié)構(gòu)來(lái)實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)。


該研究通過(guò)將位于多個(gè)彼此分離機(jī)構(gòu)的分布式異步鑒別器和一個(gè)中心生成器組成對(duì)抗網(wǎng)絡(luò),讓中心生成器在不接觸原始隱私數(shù)據(jù)的情況下,也能進(jìn)行合成訓(xùn)練,從而能夠生成與各機(jī)構(gòu)原始數(shù)據(jù)相近似的合成數(shù)據(jù)樣本,供下游任務(wù)使用。


在此基礎(chǔ)上,這一方案還采用了2種損失函數(shù),使得中心生成器具備一定的終身學(xué)習(xí)能力,可以在動(dòng)態(tài)變化(比如學(xué)習(xí)過(guò)程中有新的機(jī)構(gòu)加入或某些原有機(jī)構(gòu)退出的情況)的環(huán)境中持續(xù)訓(xùn)練模型。


經(jīng)試驗(yàn)?zāi)M,這套學(xué)習(xí)方法能夠從不同的機(jī)構(gòu)中漸進(jìn)地學(xué)習(xí)到同類(lèi)數(shù)據(jù)甚至不同類(lèi)數(shù)據(jù)的近似分布,并在醫(yī)學(xué)圖像分割任務(wù)中,取得了理想效果。


與傳統(tǒng)的聯(lián)邦學(xué)習(xí)相比,商湯科技的方案可以有效減少中心與各機(jī)構(gòu)之間的通信數(shù)據(jù)量,僅需傳輸合成圖像數(shù)據(jù)和反饋誤差,而非整個(gè)模型的所有參數(shù)數(shù)據(jù),而且各機(jī)構(gòu)之間無(wú)需交換任何數(shù)據(jù)或參數(shù),可顯著降低醫(yī)療機(jī)構(gòu)部署聯(lián)邦學(xué)習(xí)的成本,加快研究效率和AI模型的生產(chǎn)速度。


除了對(duì)聯(lián)邦學(xué)習(xí)進(jìn)行改進(jìn),業(yè)界也在開(kāi)發(fā)新的解決方案。不久前的2021年5月,德國(guó)研究人員在Nature上發(fā)布了論文,提出了一種去中心化的機(jī)器學(xué)習(xí)方法Swarm Learning(蜂群學(xué)習(xí)),將邊緣計(jì)算和基于區(qū)塊鏈的對(duì)等網(wǎng)絡(luò)結(jié)合,用于不同醫(yī)療機(jī)構(gòu)之間醫(yī)療數(shù)據(jù)的整合。


聯(lián)邦學(xué)習(xí)雖然解決了數(shù)據(jù)隱私,但是全局模型及參數(shù)調(diào)節(jié)仍然由特定機(jī)構(gòu)的中心服務(wù)器處理,必然造成了權(quán)力集中。此外,這種星形結(jié)構(gòu)容錯(cuò)性較低。相比之下,蜂群學(xué)習(xí)不再需要中心服務(wù)器交換數(shù)據(jù)或全局建模,允許參數(shù)合并,從而實(shí)現(xiàn)所有成員權(quán)利平等,并通過(guò)去中心化很好地保護(hù)機(jī)器學(xué)習(xí)模型免受攻擊。


圖片

在本地學(xué)習(xí)(a)中,數(shù)據(jù)和計(jì)算是分別在不同的機(jī)構(gòu)且彼此隔離的情況下實(shí)現(xiàn)。在中心學(xué)習(xí)(b)中,來(lái)自不同機(jī)構(gòu)的數(shù)據(jù)和參數(shù)被集中到云上實(shí)現(xiàn)模型訓(xùn)練。在聯(lián)邦學(xué)習(xí)(c)中,數(shù)據(jù)和訓(xùn)練仍然位于本地,但全局模型的參數(shù)設(shè)置和模型共享在中心實(shí)現(xiàn)。在蜂群學(xué)習(xí)(d)中,數(shù)據(jù)和參數(shù)去中心化,且彼此互聯(lián),不需要中心。(圖片來(lái)自Nature:Swarm Learning for decentralized and confidential clinical machine learning)


這個(gè)蜂群學(xué)習(xí)的研究選擇了結(jié)核病、新冠肺炎、白血病和肺部病變這四種異質(zhì)性疾病來(lái)說(shuō)明使用蜂群學(xué)習(xí)基于分布式數(shù)據(jù)開(kāi)發(fā)疾病分類(lèi)系統(tǒng)的可行性。


研究嘗試了利用蜂群學(xué)習(xí)從外周血單核細(xì)胞數(shù)據(jù)中預(yù)測(cè)白血病,從血液轉(zhuǎn)錄組數(shù)據(jù)中識(shí)別結(jié)核病患者或肺部病變患者,以及識(shí)別和檢測(cè)新冠肺炎患者。訓(xùn)練所需的數(shù)據(jù)集包括來(lái)自127項(xiàng)臨床研究中的16400多個(gè)血液轉(zhuǎn)錄組,以及95000多張胸部X光圖像。這些數(shù)據(jù)集的病例和對(duì)照分布并不均勻,存在大量偏差。


結(jié)果表明經(jīng)過(guò)蜂群學(xué)習(xí)訓(xùn)練的分類(lèi)模型性能優(yōu)于基于本地?cái)?shù)據(jù)訓(xùn)練的分類(lèi)模型。此外,蜂群學(xué)習(xí)還引入了區(qū)塊鏈技術(shù),結(jié)合了去中心化的硬件基礎(chǔ)設(shè)施,防止數(shù)據(jù)被篡改;同時(shí),成員自主權(quán)大幅提升,可以安全加入、動(dòng)態(tài)選舉領(lǐng)導(dǎo)者乃至合并模型參數(shù)。


總的來(lái)說(shuō),研究認(rèn)為蜂群學(xué)習(xí)有可能比聯(lián)邦學(xué)習(xí)更能改變當(dāng)前的格局,去中心化的數(shù)據(jù)模型有可能成為處理、存儲(chǔ)、管理和分析任何種類(lèi)的大型醫(yī)療數(shù)據(jù)集的首選。


寫(xiě)在A最后


全球?qū)?shù)據(jù)隱私及安全的重視程度日益增加,在醫(yī)療領(lǐng)域更是如此。聯(lián)邦學(xué)習(xí)及蜂群學(xué)習(xí)所代表的隱私計(jì)算因其可保證數(shù)據(jù)隱私且具有更好的性能等特性,將在未來(lái)決定醫(yī)療AI是否能夠進(jìn)一步向前發(fā)展。不少研究團(tuán)隊(duì)都在從事相應(yīng)的探索,并將其應(yīng)用到具體的醫(yī)療應(yīng)用場(chǎng)景中。


盡管如此,目前真正將聯(lián)邦學(xué)習(xí)實(shí)施落地的具體醫(yī)療場(chǎng)景仍然屈指可數(shù)。這一先進(jìn)架構(gòu)仍然面臨一些具體的問(wèn)題,包括醫(yī)療機(jī)構(gòu)數(shù)據(jù)質(zhì)量普遍較差、模型訓(xùn)練缺乏醫(yī)生參與使其難以說(shuō)服醫(yī)生使用、缺乏足夠激勵(lì)措施吸引數(shù)據(jù)方參與、具有個(gè)性化的模型訓(xùn)練難度較大以及應(yīng)對(duì)復(fù)雜場(chǎng)景的模型精度不足等。


好消息是,在標(biāo)準(zhǔn)建設(shè)上聯(lián)邦學(xué)習(xí)已經(jīng)取得了進(jìn)展——2021年3月,IEEE正式完成了標(biāo)準(zhǔn)制定工作,形成了正式標(biāo)準(zhǔn)文件IEEE P3652.1。與此同時(shí),備受關(guān)注的《個(gè)人信息保護(hù)法》草案也在今年提請(qǐng)全國(guó)人大常委會(huì)二次審議,即將正式實(shí)施。這就為之后各細(xì)分領(lǐng)域的進(jìn)展提供了依據(jù)。要不了多久,我們就將看到隱私計(jì)算在實(shí)際應(yīng)用場(chǎng)景中大顯身手。


參考資料

MICCAI Workshop on Domain Adaptation and Representation Transfer & MICCAI Workshop on Distributed and Collaborative Learning:Federated Learning for Breast Density Classification: A Real-World Implementation

Medical Image Analysis, Volume 70, May 2021, 101992:Federated semi-supervised learning for COVID region segmentation in chest CT using multi-national data from China, Italy, Japan

返回列表