?
算法的演進(jìn)、算力的提升、數(shù)據(jù)的持續(xù)擴(kuò)展,是當(dāng)今醫(yī)學(xué)領(lǐng)域人工智能 (Artificial Intelligence,AI) 應(yīng)用落地與發(fā)展,特別是在精準(zhǔn)診療與醫(yī)療科研中開(kāi)展實(shí)踐的重要基石。這三者中,數(shù)據(jù)尤為關(guān)鍵,其價(jià)值不僅僅在于體量,更重在維度和來(lái)源,因此醫(yī)療科研所需的高質(zhì)量AI模型構(gòu)建,通常都離不開(kāi)多方和多維數(shù)據(jù)的協(xié)同參與。
然而,此前該領(lǐng)域一直被數(shù)據(jù)隱私保護(hù)和信息風(fēng)險(xiǎn)防控要求所制約,各方數(shù)據(jù)多以數(shù)據(jù)孤島的型態(tài)存在,多方數(shù)據(jù)協(xié)同很難實(shí)現(xiàn)。為了更好地挖掘多方和多維數(shù)據(jù)中的巨大價(jià)值,同時(shí)更好地兼顧到其隱私和安全的防護(hù),中國(guó)醫(yī)療智能行業(yè)頭部企業(yè)醫(yī)渡科技旗下醫(yī)渡云開(kāi)始著手研發(fā)更為安全和高效的多方安全計(jì)算解決方案,包括與英特爾開(kāi)展深入合作,利用英特爾 軟件防護(hù)擴(kuò)展 (Intel Software Guard Extensions,以下簡(jiǎn)稱英特爾 SGX) 技術(shù)的優(yōu)勢(shì),為新方案導(dǎo)入基于硬件可信執(zhí)行環(huán)境 (Trusted Execution Environment,TEE) 的聯(lián)邦學(xué)習(xí)方法,為醫(yī)療科研中參與多方計(jì)算的敏感數(shù)據(jù)和代碼提供更為可靠的安全防護(hù)。
客戶引言
“臨床醫(yī)學(xué)離不開(kāi)真實(shí)世界的研究,而真實(shí)世界研究依賴高質(zhì)量數(shù)據(jù)。我們正通過(guò)構(gòu)建更為安全和高效的多方安全計(jì)算解決方案,讓更多高質(zhì)量數(shù)據(jù)被充分利用,成為推動(dòng)醫(yī)療科研事業(yè)高速發(fā)展的助力。為合法合規(guī)地打破因數(shù)據(jù)安全要求引發(fā)的‘?dāng)?shù)據(jù)孤島’問(wèn)題,我們與英特爾一起,結(jié)合其SGX技術(shù)構(gòu)建了聯(lián)邦學(xué)習(xí)方法所需的硬件可信執(zhí)行環(huán)境,讓不同醫(yī)療機(jī)構(gòu)的數(shù)據(jù)協(xié)同實(shí)現(xiàn)‘更安全+更高效’的雙重優(yōu)勢(shì)?!?/p>
—— 閆峻博士,首席AI科學(xué)家,醫(yī)渡云
背景與挑戰(zhàn):
醫(yī)療科研亟需更好的數(shù)據(jù)融合與價(jià)值挖掘
1
不過(guò),醫(yī)療科研畢竟是一個(gè)細(xì)分化的、復(fù)雜的、系統(tǒng)化的領(lǐng)域,盡管各個(gè)醫(yī)療科研機(jī)構(gòu)自身都有大量的數(shù)據(jù)資產(chǎn),但在體量和維度上仍有較大的差別,這對(duì)科研效率會(huì)有實(shí)質(zhì)性的影響。畢竟,數(shù)據(jù)集的體量越大、維度越豐富,能夠從中發(fā)現(xiàn)和學(xué)習(xí)到的特征就越多,基于此構(gòu)建的AI模型的性能及應(yīng)用價(jià)值也就越高。大量統(tǒng)計(jì)數(shù)據(jù)已表明,多中心研究機(jī)構(gòu)的醫(yī)療科研效率往往會(huì)優(yōu)于單中心機(jī)構(gòu),關(guān)鍵就在于多中心機(jī)構(gòu)能借助多方數(shù)據(jù)的融合與協(xié)作,在數(shù)據(jù)體量及維度上實(shí)現(xiàn)更大優(yōu)勢(shì),進(jìn)而也能對(duì)數(shù)據(jù)中的價(jià)值進(jìn)行更為深入和全面的挖掘和利用。因此,醫(yī)療科研機(jī)構(gòu)普遍期望能開(kāi)展多方及多樣化的數(shù)據(jù)協(xié)作。如圖一所示,多中心數(shù)據(jù)融合可為醫(yī)療科研帶來(lái)以下關(guān)鍵優(yōu)勢(shì):
消除或降低數(shù)據(jù)偏差:研究區(qū)域以及方法、方式的差異,會(huì)帶來(lái)不同研究中心間的數(shù)據(jù)差異,通過(guò)數(shù)據(jù)融合,能消除或降低數(shù)據(jù)偏差,使研究成果泛化能力更強(qiáng);
擴(kuò)大科研樣本量:數(shù)據(jù)融合能夠讓不同研究中心間的臨床數(shù)據(jù)得以共享,擴(kuò)大科研所需的數(shù)據(jù)樣本量,提升最終AI模型的性能;
補(bǔ)充非臨床數(shù)據(jù):許多長(zhǎng)期跟蹤的醫(yī)療科研數(shù)據(jù)還需要對(duì)社區(qū)醫(yī)療、家庭醫(yī)生、體檢機(jī)構(gòu)以及可穿戴設(shè)備的數(shù)據(jù)實(shí)施融合。

圖一 多中心數(shù)據(jù)融合帶來(lái)的醫(yī)療科研優(yōu)勢(shì)
雖然多方數(shù)據(jù)協(xié)同好處多多,但在實(shí)踐中這種融合和協(xié)同帶來(lái)的數(shù)據(jù)安全問(wèn)題也越來(lái)越受關(guān)注,在國(guó)家政策層面,中國(guó)已出臺(tái)《個(gè)人信息保護(hù)法》、《數(shù)據(jù)安全法》等一系列法律法規(guī)來(lái)對(duì)數(shù)據(jù)安全和隱私信息予以保護(hù)。為此,醫(yī)療科研機(jī)構(gòu)采取了一系列方法來(lái)規(guī)避風(fēng)險(xiǎn),包括采用長(zhǎng)鏈條的數(shù)據(jù)協(xié)同審批流程,以人工方式進(jìn)行數(shù)據(jù)錄入、轉(zhuǎn)錄等。但這些方法不僅耗時(shí)長(zhǎng)、效率低,還缺乏質(zhì)控且難以溯源,帶來(lái)了嚴(yán)重的數(shù)據(jù)孤島問(wèn)題。
在這種矛盾的現(xiàn)實(shí)狀況下,如何合法合規(guī)地解決數(shù)據(jù)孤島問(wèn)題,讓醫(yī)療數(shù)據(jù)在融合的同時(shí)也能滿足隱私保護(hù)和科研應(yīng)用的雙重需求,以及有望兼顧這兩個(gè)需求的多方隱私計(jì)算技術(shù),就成為了眾多醫(yī)療科研機(jī)構(gòu)關(guān)注的焦點(diǎn)。
不同于其它領(lǐng)域,醫(yī)療科研對(duì)基于多方隱私計(jì)算技術(shù)的數(shù)據(jù)融合有一些特定的需求,如圖二所示,這些需求涉及:
數(shù)據(jù)敏感度:醫(yī)療科研場(chǎng)景下的數(shù)據(jù)敏感度很高,“醫(yī)療數(shù)據(jù)不出院”的需求非常強(qiáng)烈,因而在參與各方之間建立信任也非常困難;
數(shù)據(jù)融合標(biāo)準(zhǔn)化:醫(yī)療科研對(duì)數(shù)據(jù)的高質(zhì)量要求,使之非常依賴數(shù)據(jù)治理。各個(gè)進(jìn)行中的研究項(xiàng)目可能需要反復(fù)的調(diào)整納排條件后,再進(jìn)行全局性的安全聚合計(jì)算;
計(jì)算需求:醫(yī)療科研基于多方隱私計(jì)算技術(shù)的AI建模通常有著明顯的行業(yè)特點(diǎn),因此AI建模時(shí)對(duì)計(jì)算性能也有很高的要求。

圖二 醫(yī)療科研領(lǐng)域數(shù)據(jù)融合需求的特征
為幫助眾多醫(yī)療科研機(jī)構(gòu)打造兼顧高效和安全需求的多方隱私計(jì)算能力,為醫(yī)療和健康行業(yè)提供更優(yōu)的數(shù)據(jù)融合與數(shù)據(jù)科研價(jià)值挖掘能力,多年來(lái)一直深耕醫(yī)療AI與大數(shù)據(jù)技術(shù)創(chuàng)新的醫(yī)渡云,以強(qiáng)大的醫(yī)學(xué)數(shù)據(jù)治理能力為后盾,通過(guò)自研 YiduManda 安全計(jì)算引擎為數(shù)據(jù)融合提供了聯(lián)邦學(xué)習(xí)、聯(lián)合統(tǒng)計(jì)、聯(lián)盟區(qū)塊鏈等核心技術(shù)保障。
這其中,采用TEE方案的聯(lián)邦學(xué)習(xí)方法憑其在數(shù)據(jù)“可用而不可見(jiàn)”方面的獨(dú)到優(yōu)勢(shì),在各醫(yī)療科研機(jī)構(gòu)的實(shí)踐中收獲了良好效果。與其他多方隱私計(jì)算方案相比,采用TEE方案的聯(lián)邦學(xué)習(xí)方法具有以下優(yōu)勢(shì):
醫(yī)療數(shù)據(jù)不脫離本地,各參與方可利用自身?yè)碛械臄?shù)據(jù)訓(xùn)練全局模型;
每個(gè)醫(yī)療科研參與方都可參與訓(xùn)練過(guò)程,模型損失可控;
訓(xùn)練過(guò)程能更好地兼顧隱私和安全需求,各參與方能在不暴露數(shù)據(jù)及加密形態(tài)的前提下進(jìn)行聯(lián)合建模。
基于英特爾 SGX,
以聯(lián)邦學(xué)習(xí)方法構(gòu)建高效多方安全計(jì)算解決方案
醫(yī)渡云基于聯(lián)邦學(xué)習(xí)等隱私計(jì)算方法打造的多方安全計(jì)算解決方案,其功能層面如圖三所示,自下而上分別是面向院內(nèi)外業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集系統(tǒng)、進(jìn)行數(shù)據(jù)加工治理的專病庫(kù)以及開(kāi)展多方隱私計(jì)算的安全計(jì)算平臺(tái)。在安全計(jì)算平臺(tái)之上,醫(yī)渡云又通過(guò)多中心醫(yī)學(xué)研究全場(chǎng)景解決方案,部署了一系列面向多樣化醫(yī)療科研場(chǎng)景所需的上層應(yīng)用能力,如臨床研究開(kāi)展、藥械試驗(yàn)與研究、診療技術(shù)開(kāi)放推廣、患者隨訪與管理等。

圖三 醫(yī)渡云多方安全計(jì)算解決方案整體架構(gòu)
具體來(lái)說(shuō),方案中各層的功能和作用分別為:
數(shù)據(jù)采集系統(tǒng):醫(yī)療科研機(jī)構(gòu)開(kāi)展臨床研究所需的數(shù)據(jù)一般來(lái)自于研究機(jī)構(gòu)的臨床數(shù)據(jù)中心、隨訪中心、生物樣本庫(kù)以及生物信息中心;
專病庫(kù):采集后的數(shù)據(jù)需要執(zhí)行同步、脫敏、映射等數(shù)據(jù)匯聚過(guò)程以及歸一標(biāo)準(zhǔn)化、結(jié)構(gòu)化等數(shù)據(jù)深加工過(guò)程。完備的數(shù)據(jù)加工治理流程,能幫助醫(yī)療科研機(jī)構(gòu)按照研究目標(biāo),把各個(gè)科研參與方(醫(yī)院或醫(yī)療機(jī)構(gòu))的多元異構(gòu)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式的高質(zhì)量數(shù)據(jù),通過(guò)數(shù)據(jù)抽取后建立滿足研究所需的專病數(shù)據(jù)庫(kù);
多方安全計(jì)算平臺(tái):醫(yī)渡云自研的YiduManda以多方安全計(jì)算、聯(lián)邦學(xué)習(xí)為基礎(chǔ),同時(shí)結(jié)合英特爾 SGX 將來(lái)自各個(gè)科研參與方(醫(yī)院)的原始數(shù)據(jù),通過(guò)聯(lián)合統(tǒng)計(jì)、特性工程(Feature Engining)、邏輯回歸(Logistic Regression,LR)、XGBoost 等方法進(jìn)行聯(lián)合統(tǒng)計(jì)分析和模型訓(xùn)練,并最終得到醫(yī)療科研AI模型以及相關(guān)深度學(xué)習(xí)模型。
在架構(gòu)設(shè)計(jì)上,醫(yī)渡云的方案采用了分布式的設(shè)計(jì),可分為平臺(tái)端(調(diào)度節(jié)點(diǎn))和醫(yī)院端(計(jì)算節(jié)點(diǎn)),其中:
平臺(tái)端(調(diào)度節(jié)點(diǎn)):部署在互聯(lián)網(wǎng)數(shù)據(jù)中心或機(jī)構(gòu)聯(lián)盟的主中心私有云環(huán)境中,包括一套用于聯(lián)邦學(xué)習(xí)等隱私計(jì)算的調(diào)度層框架以及相應(yīng)的科研應(yīng)用平臺(tái)。應(yīng)用層框架對(duì)各醫(yī)院端隱私計(jì)算節(jié)點(diǎn)進(jìn)行統(tǒng)一的管理和協(xié)調(diào),并對(duì)多方安全計(jì)算的任務(wù)進(jìn)行統(tǒng)一調(diào)度;
醫(yī)院端(計(jì)算節(jié)點(diǎn)):部署在醫(yī)院的私有云環(huán)境中,通過(guò)隱私計(jì)算節(jié)點(diǎn)間的協(xié)作,能保證數(shù)據(jù)在不出醫(yī)院的前提下完成聯(lián)邦學(xué)習(xí)等多方隱私計(jì)算過(guò)程,各個(gè)節(jié)點(diǎn)對(duì)其所有的數(shù)據(jù)有絕對(duì)控制權(quán),所有數(shù)據(jù)調(diào)用經(jīng)過(guò)多方安全計(jì)算框架可審計(jì)。

圖四 醫(yī)渡云多方安全計(jì)算解決方案中醫(yī)院端和平臺(tái)端的協(xié)作模式
基于上述功能與架構(gòu)設(shè)計(jì),各醫(yī)療科研機(jī)構(gòu)之間開(kāi)展基于聯(lián)邦學(xué)習(xí)的模型協(xié)同訓(xùn)練的過(guò)程如圖五所示,數(shù)據(jù)準(zhǔn)備階段是在各個(gè)參與協(xié)同訓(xùn)練的醫(yī)院或醫(yī)療機(jī)構(gòu)本地完成的,準(zhǔn)備好的數(shù)據(jù)通過(guò)程序接口加載到醫(yī)院端中,隨后平臺(tái)端會(huì)調(diào)度完成模型的協(xié)同訓(xùn)練過(guò)程。參與訓(xùn)練的醫(yī)院端通過(guò)加密信道與其它參與方完成通信和計(jì)算,并最后完成模型的優(yōu)化訓(xùn)練。

圖五 基于聯(lián)邦學(xué)習(xí)的模型訓(xùn)練
在方案的具體部署中,醫(yī)渡云引入了英特爾 SGX 來(lái)構(gòu)建基于TEE的聯(lián)邦學(xué)習(xí)方法所需的硬件可信環(huán)境。英特爾 SGX 能在內(nèi)存的特定硬件環(huán)境中構(gòu)造出一個(gè)可信的安全“飛地”(Enclave),為醫(yī)療科研過(guò)程中參與多方計(jì)算的敏感數(shù)據(jù)和代碼提供更強(qiáng)的安全防護(hù)。
如圖六所示,與其它技術(shù)方案相比,英特爾 SGX 一方面為敏感數(shù)據(jù)與程序構(gòu)建了隔離的硬件環(huán)境,使安全保護(hù)機(jī)制獨(dú)立于軟件應(yīng)用、操作系統(tǒng)或硬件配置之外,從而令保密性和完整性大幅提升;另一方面,獨(dú)立的“飛地”設(shè)置可讓關(guān)鍵的應(yīng)用程序和數(shù)據(jù)更有效地避開(kāi)來(lái)自硬件驅(qū)動(dòng)程序、虛擬機(jī)乃至操作系統(tǒng)的攻擊,帶來(lái)更強(qiáng)的安全性。基于英特爾 SGX 提供的這些優(yōu)勢(shì),各醫(yī)療科研機(jī)構(gòu)就可將數(shù)據(jù)分析、模型訓(xùn)練及推理所涉及的數(shù)據(jù)運(yùn)行在“飛地”中,通過(guò)訪問(wèn)控制為這些應(yīng)用代碼和數(shù)據(jù)提供更可信賴的安全保障。

圖六 英特爾 SGX技術(shù)實(shí)際作用示意圖
在性能表現(xiàn)上,英特爾 SGX 基于硬件層面的安全保護(hù)機(jī)制,可使敏感數(shù)據(jù)與應(yīng)用程序獲得來(lái)自基于英特爾 架構(gòu)的處理器強(qiáng)勁性能的加速或助推,從而更好地解決方案中性能和安全的平衡問(wèn)題,在某些對(duì)計(jì)算性能和安全等級(jí)要求都很高的醫(yī)療科研場(chǎng)景中輸出更為全面的應(yīng)用優(yōu)勢(shì)。
2021年發(fā)布的面向單路和雙路服務(wù)器的第三代英特爾 至強(qiáng) 可擴(kuò)展處理器,已集成了英特爾 SGX,并為此提供了更優(yōu)的支持,其高端型號(hào)最高可在雙路系統(tǒng)中支持1TB容量的保留加密內(nèi)存區(qū)域(Enclave Page Cache,EPC),這對(duì)于醫(yī)療科研機(jī)構(gòu)進(jìn)一步擴(kuò)展AI模型訓(xùn)練與推理的數(shù)據(jù)規(guī)模至關(guān)重要,因此該處理器在醫(yī)渡云多方安全計(jì)算解決方案中也扮演了關(guān)鍵角色。當(dāng)然,除了集成SGX技術(shù)外,該處理器對(duì)內(nèi)核微架構(gòu)、I/O、內(nèi)存性能及容量的改進(jìn)和提升,及其內(nèi)置的英特爾 高級(jí)矢量擴(kuò)展 512 (英特爾 AVX-512)和英特爾 深度學(xué)習(xí)加速(英特爾 DL Boost)技術(shù)對(duì)AI應(yīng)用的硬件加速能力,也為方案涉及的復(fù)雜計(jì)算需求提供了有力支撐。
落地及展望
得益于服務(wù)全國(guó)800多家醫(yī)療機(jī)構(gòu),覆蓋60個(gè)疾病領(lǐng)域所積累的深厚經(jīng)驗(yàn),醫(yī)渡云可以為面向醫(yī)療科研領(lǐng)域的多方安全計(jì)算解決方案帶來(lái)專業(yè)的方案設(shè)計(jì)2,而第三代英特爾 至強(qiáng) 可擴(kuò)展處理器不僅為方案帶來(lái)了數(shù)據(jù)處理所需的強(qiáng)勁算力,其內(nèi)置的英特爾 SGX 也為方案提供了更可靠的數(shù)據(jù)安全防護(hù),使用英特爾 SGX 構(gòu)建的基于TEE的聯(lián)邦學(xué)習(xí)方法,為多方數(shù)據(jù)安全、高效的聯(lián)合建模打造了更為可信的硬件環(huán)境。在面向醫(yī)療科研領(lǐng)域的實(shí)踐中,醫(yī)渡云已經(jīng)支持多家醫(yī)院和醫(yī)療科研機(jī)構(gòu)開(kāi)展了一系列基于多方安全計(jì)算解決方案的聯(lián)合研究項(xiàng)目。
綜合以上優(yōu)勢(shì),醫(yī)渡云目前已通過(guò)了中國(guó)信息通信研究院在隱私保護(hù)計(jì)算技術(shù)上的兩項(xiàng)認(rèn)證,分別為《基于多方安全計(jì)算的數(shù)據(jù)流通產(chǎn)品技術(shù)要求與測(cè)試方法》與《基于聯(lián)邦學(xué)習(xí)的數(shù)據(jù)流通產(chǎn)品技術(shù)要求與測(cè)試方法》3。
隨著采用英特爾 SGX 的多方安全計(jì)算解決方案得到越來(lái)越多的客戶認(rèn)可,醫(yī)渡云已計(jì)劃將該方案作為未來(lái)核心產(chǎn)品的一個(gè)基礎(chǔ)組件來(lái)提供默認(rèn)的隱私計(jì)算能力,并根據(jù)用戶需求提供服務(wù)。
面向未來(lái),醫(yī)渡云也將繼續(xù)攜手英特爾,針對(duì)多方安全計(jì)算中的多中心臨床研究解決方案開(kāi)展更為深入的合作,這些合作包括:將英特爾 SGX 及相關(guān)技術(shù)和框架用作其整體隱私計(jì)算解決方案中的重要選項(xiàng),借助該技術(shù)在安全特性和性能上的雙重優(yōu)勢(shì),為那些對(duì)計(jì)算性能要求較高的場(chǎng)景提供更優(yōu)的支持,并在單中心內(nèi)部的隱私保護(hù)、跨中心聯(lián)邦學(xué)習(xí)等更多場(chǎng)景中探索英特爾 SGX 的運(yùn)用。當(dāng)然,這些合作的目標(biāo)都是一致的,即為醫(yī)療科研事業(yè)的發(fā)展提供源源不斷的技術(shù)助力和數(shù)據(jù)積累?! ?/p>
電子發(fā)燒友App























評(píng)論