英特爾攜手醫(yī)渡云構(gòu)建高效多方安全計(jì)算解決方案

算法的演進(jìn)、算力的提升、數(shù)據(jù)的持續(xù)擴(kuò)展，是當(dāng)今醫(yī)學(xué)領(lǐng)域人工智能（Artificial Intelligence，AI）應(yīng)用落地與發(fā)展，特別是在精準(zhǔn)診療與醫(yī)療科研中開(kāi)展實(shí)踐的重要基石。這三者中，數(shù)據(jù)尤為關(guān)鍵，其價(jià)值不僅僅在于體量，更重在維度和來(lái)源，因此醫(yī)療科研所需的高質(zhì)量AI模型構(gòu)建，通常都離不開(kāi)多方和多維數(shù)據(jù)的協(xié)同參與。

然而，此前該領(lǐng)域一直被數(shù)據(jù)隱私保護(hù)和信息風(fēng)險(xiǎn)防控要求所制約，各方數(shù)據(jù)多以數(shù)據(jù)孤島的型態(tài)存在，多方數(shù)據(jù)協(xié)同很難實(shí)現(xiàn)。為了更好地挖掘多方和多維數(shù)據(jù)中的巨大價(jià)值，同時(shí)更好地兼顧到其隱私和安全的防護(hù)，中國(guó)醫(yī)療智能行業(yè)頭部企業(yè)醫(yī)渡科技旗下醫(yī)渡云開(kāi)始著手研發(fā)更為安全和高效的多方安全計(jì)算解決方案，包括與英特爾開(kāi)展深入合作，利用英特爾軟件防護(hù)擴(kuò)展（Intel Software Guard Extensions，以下簡(jiǎn)稱英特爾 SGX）技術(shù)的優(yōu)勢(shì)，為新方案導(dǎo)入基于硬件可信執(zhí)行環(huán)境（Trusted Execution Environment，TEE）的聯(lián)邦學(xué)習(xí)方法，為醫(yī)療科研中參與多方計(jì)算的敏感數(shù)據(jù)和代碼提供更為可靠的安全防護(hù)。

客戶引言

“臨床醫(yī)學(xué)離不開(kāi)真實(shí)世界的研究，而真實(shí)世界研究依賴高質(zhì)量數(shù)據(jù)。我們正通過(guò)構(gòu)建更為安全和高效的多方安全計(jì)算解決方案，讓更多高質(zhì)量數(shù)據(jù)被充分利用，成為推動(dòng)醫(yī)療科研事業(yè)高速發(fā)展的助力。為合法合規(guī)地打破因數(shù)據(jù)安全要求引發(fā)的‘?dāng)?shù)據(jù)孤島’問(wèn)題，我們與英特爾一起，結(jié)合其SGX技術(shù)構(gòu)建了聯(lián)邦學(xué)習(xí)方法所需的硬件可信執(zhí)行環(huán)境，讓不同醫(yī)療機(jī)構(gòu)的數(shù)據(jù)協(xié)同實(shí)現(xiàn)‘更安全+更高效’的雙重優(yōu)勢(shì)?！?/p>

—— 閆峻博士，首席AI科學(xué)家，醫(yī)渡云

背景與挑戰(zhàn)：

醫(yī)療科研亟需更好的數(shù)據(jù)融合與價(jià)值挖掘

不過(guò)，醫(yī)療科研畢竟是一個(gè)細(xì)分化的、復(fù)雜的、系統(tǒng)化的領(lǐng)域，盡管各個(gè)醫(yī)療科研機(jī)構(gòu)自身都有大量的數(shù)據(jù)資產(chǎn)，但在體量和維度上仍有較大的差別，這對(duì)科研效率會(huì)有實(shí)質(zhì)性的影響。畢竟，數(shù)據(jù)集的體量越大、維度越豐富，能夠從中發(fā)現(xiàn)和學(xué)習(xí)到的特征就越多，基于此構(gòu)建的AI模型的性能及應(yīng)用價(jià)值也就越高。大量統(tǒng)計(jì)數(shù)據(jù)已表明，多中心研究機(jī)構(gòu)的醫(yī)療科研效率往往會(huì)優(yōu)于單中心機(jī)構(gòu)，關(guān)鍵就在于多中心機(jī)構(gòu)能借助多方數(shù)據(jù)的融合與協(xié)作，在數(shù)據(jù)體量及維度上實(shí)現(xiàn)更大優(yōu)勢(shì)，進(jìn)而也能對(duì)數(shù)據(jù)中的價(jià)值進(jìn)行更為深入和全面的挖掘和利用。因此，醫(yī)療科研機(jī)構(gòu)普遍期望能開(kāi)展多方及多樣化的數(shù)據(jù)協(xié)作。如圖一所示，多中心數(shù)據(jù)融合可為醫(yī)療科研帶來(lái)以下關(guān)鍵優(yōu)勢(shì)：

消除或降低數(shù)據(jù)偏差：研究區(qū)域以及方法、方式的差異，會(huì)帶來(lái)不同研究中心間的數(shù)據(jù)差異，通過(guò)數(shù)據(jù)融合，能消除或降低數(shù)據(jù)偏差，使研究成果泛化能力更強(qiáng)；

擴(kuò)大科研樣本量：數(shù)據(jù)融合能夠讓不同研究中心間的臨床數(shù)據(jù)得以共享，擴(kuò)大科研所需的數(shù)據(jù)樣本量，提升最終AI模型的性能；

補(bǔ)充非臨床數(shù)據(jù)：許多長(zhǎng)期跟蹤的醫(yī)療科研數(shù)據(jù)還需要對(duì)社區(qū)醫(yī)療、家庭醫(yī)生、體檢機(jī)構(gòu)以及可穿戴設(shè)備的數(shù)據(jù)實(shí)施融合。

圖一多中心數(shù)據(jù)融合帶來(lái)的醫(yī)療科研優(yōu)勢(shì)

雖然多方數(shù)據(jù)協(xié)同好處多多，但在實(shí)踐中這種融合和協(xié)同帶來(lái)的數(shù)據(jù)安全問(wèn)題也越來(lái)越受關(guān)注，在國(guó)家政策層面，中國(guó)已出臺(tái)《個(gè)人信息保護(hù)法》、《數(shù)據(jù)安全法》等一系列法律法規(guī)來(lái)對(duì)數(shù)據(jù)安全和隱私信息予以保護(hù)。為此，醫(yī)療科研機(jī)構(gòu)采取了一系列方法來(lái)規(guī)避風(fēng)險(xiǎn)，包括采用長(zhǎng)鏈條的數(shù)據(jù)協(xié)同審批流程，以人工方式進(jìn)行數(shù)據(jù)錄入、轉(zhuǎn)錄等。但這些方法不僅耗時(shí)長(zhǎng)、效率低，還缺乏質(zhì)控且難以溯源，帶來(lái)了嚴(yán)重的數(shù)據(jù)孤島問(wèn)題。

在這種矛盾的現(xiàn)實(shí)狀況下，如何合法合規(guī)地解決數(shù)據(jù)孤島問(wèn)題，讓醫(yī)療數(shù)據(jù)在融合的同時(shí)也能滿足隱私保護(hù)和科研應(yīng)用的雙重需求，以及有望兼顧這兩個(gè)需求的多方隱私計(jì)算技術(shù)，就成為了眾多醫(yī)療科研機(jī)構(gòu)關(guān)注的焦點(diǎn)。

不同于其它領(lǐng)域，醫(yī)療科研對(duì)基于多方隱私計(jì)算技術(shù)的數(shù)據(jù)融合有一些特定的需求，如圖二所示，這些需求涉及：

數(shù)據(jù)敏感度：醫(yī)療科研場(chǎng)景下的數(shù)據(jù)敏感度很高，“醫(yī)療數(shù)據(jù)不出院”的需求非常強(qiáng)烈，因而在參與各方之間建立信任也非常困難；

數(shù)據(jù)融合標(biāo)準(zhǔn)化：醫(yī)療科研對(duì)數(shù)據(jù)的高質(zhì)量要求，使之非常依賴數(shù)據(jù)治理。各個(gè)進(jìn)行中的研究項(xiàng)目可能需要反復(fù)的調(diào)整納排條件后，再進(jìn)行全局性的安全聚合計(jì)算；

計(jì)算需求：醫(yī)療科研基于多方隱私計(jì)算技術(shù)的AI建模通常有著明顯的行業(yè)特點(diǎn)，因此AI建模時(shí)對(duì)計(jì)算性能也有很高的要求。

圖二醫(yī)療科研領(lǐng)域數(shù)據(jù)融合需求的特征

為幫助眾多醫(yī)療科研機(jī)構(gòu)打造兼顧高效和安全需求的多方隱私計(jì)算能力，為醫(yī)療和健康行業(yè)提供更優(yōu)的數(shù)據(jù)融合與數(shù)據(jù)科研價(jià)值挖掘能力，多年來(lái)一直深耕醫(yī)療AI與大數(shù)據(jù)技術(shù)創(chuàng)新的醫(yī)渡云，以強(qiáng)大的醫(yī)學(xué)數(shù)據(jù)治理能力為后盾，通過(guò)自研 YiduManda 安全計(jì)算引擎為數(shù)據(jù)融合提供了聯(lián)邦學(xué)習(xí)、聯(lián)合統(tǒng)計(jì)、聯(lián)盟區(qū)塊鏈等核心技術(shù)保障。

這其中，采用TEE方案的聯(lián)邦學(xué)習(xí)方法憑其在數(shù)據(jù)“可用而不可見(jiàn)”方面的獨(dú)到優(yōu)勢(shì)，在各醫(yī)療科研機(jī)構(gòu)的實(shí)踐中收獲了良好效果。與其他多方隱私計(jì)算方案相比，采用TEE方案的聯(lián)邦學(xué)習(xí)方法具有以下優(yōu)勢(shì)：

醫(yī)療數(shù)據(jù)不脫離本地，各參與方可利用自身?yè)碛械臄?shù)據(jù)訓(xùn)練全局模型；

每個(gè)醫(yī)療科研參與方都可參與訓(xùn)練過(guò)程，模型損失可控；

訓(xùn)練過(guò)程能更好地兼顧隱私和安全需求，各參與方能在不暴露數(shù)據(jù)及加密形態(tài)的前提下進(jìn)行聯(lián)合建模。

基于英特爾 SGX，

以聯(lián)邦學(xué)習(xí)方法構(gòu)建高效多方安全計(jì)算解決方案

醫(yī)渡云基于聯(lián)邦學(xué)習(xí)等隱私計(jì)算方法打造的多方安全計(jì)算解決方案，其功能層面如圖三所示，自下而上分別是面向院內(nèi)外業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集系統(tǒng)、進(jìn)行數(shù)據(jù)加工治理的專病庫(kù)以及開(kāi)展多方隱私計(jì)算的安全計(jì)算平臺(tái)。在安全計(jì)算平臺(tái)之上，醫(yī)渡云又通過(guò)多中心醫(yī)學(xué)研究全場(chǎng)景解決方案，部署了一系列面向多樣化醫(yī)療科研場(chǎng)景所需的上層應(yīng)用能力，如臨床研究開(kāi)展、藥械試驗(yàn)與研究、診療技術(shù)開(kāi)放推廣、患者隨訪與管理等。

圖三醫(yī)渡云多方安全計(jì)算解決方案整體架構(gòu)

具體來(lái)說(shuō)，方案中各層的功能和作用分別為：

數(shù)據(jù)采集系統(tǒng)：醫(yī)療科研機(jī)構(gòu)開(kāi)展臨床研究所需的數(shù)據(jù)一般來(lái)自于研究機(jī)構(gòu)的臨床數(shù)據(jù)中心、隨訪中心、生物樣本庫(kù)以及生物信息中心；

專病庫(kù)：采集后的數(shù)據(jù)需要執(zhí)行同步、脫敏、映射等數(shù)據(jù)匯聚過(guò)程以及歸一標(biāo)準(zhǔn)化、結(jié)構(gòu)化等數(shù)據(jù)深加工過(guò)程。完備的數(shù)據(jù)加工治理流程，能幫助醫(yī)療科研機(jī)構(gòu)按照研究目標(biāo)，把各個(gè)科研參與方（醫(yī)院或醫(yī)療機(jī)構(gòu)）的多元異構(gòu)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式的高質(zhì)量數(shù)據(jù)，通過(guò)數(shù)據(jù)抽取后建立滿足研究所需的專病數(shù)據(jù)庫(kù)；

多方安全計(jì)算平臺(tái)：醫(yī)渡云自研的YiduManda以多方安全計(jì)算、聯(lián)邦學(xué)習(xí)為基礎(chǔ)，同時(shí)結(jié)合英特爾 SGX 將來(lái)自各個(gè)科研參與方（醫(yī)院）的原始數(shù)據(jù)，通過(guò)聯(lián)合統(tǒng)計(jì)、特性工程（Feature Engining）、邏輯回歸（Logistic Regression，LR）、XGBoost 等方法進(jìn)行聯(lián)合統(tǒng)計(jì)分析和模型訓(xùn)練，并最終得到醫(yī)療科研AI模型以及相關(guān)深度學(xué)習(xí)模型。

在架構(gòu)設(shè)計(jì)上，醫(yī)渡云的方案采用了分布式的設(shè)計(jì)，可分為平臺(tái)端（調(diào)度節(jié)點(diǎn)）和醫(yī)院端（計(jì)算節(jié)點(diǎn)），其中：

平臺(tái)端（調(diào)度節(jié)點(diǎn)）：部署在互聯(lián)網(wǎng)數(shù)據(jù)中心或機(jī)構(gòu)聯(lián)盟的主中心私有云環(huán)境中，包括一套用于聯(lián)邦學(xué)習(xí)等隱私計(jì)算的調(diào)度層框架以及相應(yīng)的科研應(yīng)用平臺(tái)。應(yīng)用層框架對(duì)各醫(yī)院端隱私計(jì)算節(jié)點(diǎn)進(jìn)行統(tǒng)一的管理和協(xié)調(diào)，并對(duì)多方安全計(jì)算的任務(wù)進(jìn)行統(tǒng)一調(diào)度；

醫(yī)院端（計(jì)算節(jié)點(diǎn)）：部署在醫(yī)院的私有云環(huán)境中，通過(guò)隱私計(jì)算節(jié)點(diǎn)間的協(xié)作，能保證數(shù)據(jù)在不出醫(yī)院的前提下完成聯(lián)邦學(xué)習(xí)等多方隱私計(jì)算過(guò)程，各個(gè)節(jié)點(diǎn)對(duì)其所有的數(shù)據(jù)有絕對(duì)控制權(quán)，所有數(shù)據(jù)調(diào)用經(jīng)過(guò)多方安全計(jì)算框架可審計(jì)。

圖四醫(yī)渡云多方安全計(jì)算解決方案中醫(yī)院端和平臺(tái)端的協(xié)作模式

基于上述功能與架構(gòu)設(shè)計(jì)，各醫(yī)療科研機(jī)構(gòu)之間開(kāi)展基于聯(lián)邦學(xué)習(xí)的模型協(xié)同訓(xùn)練的過(guò)程如圖五所示，數(shù)據(jù)準(zhǔn)備階段是在各個(gè)參與協(xié)同訓(xùn)練的醫(yī)院或醫(yī)療機(jī)構(gòu)本地完成的，準(zhǔn)備好的數(shù)據(jù)通過(guò)程序接口加載到醫(yī)院端中，隨后平臺(tái)端會(huì)調(diào)度完成模型的協(xié)同訓(xùn)練過(guò)程。參與訓(xùn)練的醫(yī)院端通過(guò)加密信道與其它參與方完成通信和計(jì)算，并最后完成模型的優(yōu)化訓(xùn)練。

圖五基于聯(lián)邦學(xué)習(xí)的模型訓(xùn)練

在方案的具體部署中，醫(yī)渡云引入了英特爾 SGX 來(lái)構(gòu)建基于TEE的聯(lián)邦學(xué)習(xí)方法所需的硬件可信環(huán)境。英特爾 SGX 能在內(nèi)存的特定硬件環(huán)境中構(gòu)造出一個(gè)可信的安全“飛地”（Enclave），為醫(yī)療科研過(guò)程中參與多方計(jì)算的敏感數(shù)據(jù)和代碼提供更強(qiáng)的安全防護(hù)。

如圖六所示，與其它技術(shù)方案相比，英特爾 SGX 一方面為敏感數(shù)據(jù)與程序構(gòu)建了隔離的硬件環(huán)境，使安全保護(hù)機(jī)制獨(dú)立于軟件應(yīng)用、操作系統(tǒng)或硬件配置之外，從而令保密性和完整性大幅提升；另一方面，獨(dú)立的“飛地”設(shè)置可讓關(guān)鍵的應(yīng)用程序和數(shù)據(jù)更有效地避開(kāi)來(lái)自硬件驅(qū)動(dòng)程序、虛擬機(jī)乃至操作系統(tǒng)的攻擊，帶來(lái)更強(qiáng)的安全性。基于英特爾 SGX 提供的這些優(yōu)勢(shì)，各醫(yī)療科研機(jī)構(gòu)就可將數(shù)據(jù)分析、模型訓(xùn)練及推理所涉及的數(shù)據(jù)運(yùn)行在“飛地”中，通過(guò)訪問(wèn)控制為這些應(yīng)用代碼和數(shù)據(jù)提供更可信賴的安全保障。

圖六英特爾 SGX技術(shù)實(shí)際作用示意圖

在性能表現(xiàn)上，英特爾 SGX 基于硬件層面的安全保護(hù)機(jī)制，可使敏感數(shù)據(jù)與應(yīng)用程序獲得來(lái)自基于英特爾架構(gòu)的處理器強(qiáng)勁性能的加速或助推，從而更好地解決方案中性能和安全的平衡問(wèn)題，在某些對(duì)計(jì)算性能和安全等級(jí)要求都很高的醫(yī)療科研場(chǎng)景中輸出更為全面的應(yīng)用優(yōu)勢(shì)。

2021年發(fā)布的面向單路和雙路服務(wù)器的第三代英特爾至強(qiáng) 可擴(kuò)展處理器，已集成了英特爾 SGX，并為此提供了更優(yōu)的支持，其高端型號(hào)最高可在雙路系統(tǒng)中支持1TB容量的保留加密內(nèi)存區(qū)域（Enclave Page Cache，EPC），這對(duì)于醫(yī)療科研機(jī)構(gòu)進(jìn)一步擴(kuò)展AI模型訓(xùn)練與推理的數(shù)據(jù)規(guī)模至關(guān)重要，因此該處理器在醫(yī)渡云多方安全計(jì)算解決方案中也扮演了關(guān)鍵角色。當(dāng)然，除了集成SGX技術(shù)外，該處理器對(duì)內(nèi)核微架構(gòu)、I/O、內(nèi)存性能及容量的改進(jìn)和提升，及其內(nèi)置的英特爾高級(jí)矢量擴(kuò)展 512 （英特爾 AVX-512）和英特爾深度學(xué)習(xí)加速（英特爾 DL Boost）技術(shù)對(duì)AI應(yīng)用的硬件加速能力，也為方案涉及的復(fù)雜計(jì)算需求提供了有力支撐。

落地及展望

得益于服務(wù)全國(guó)800多家醫(yī)療機(jī)構(gòu)，覆蓋60個(gè)疾病領(lǐng)域所積累的深厚經(jīng)驗(yàn)，醫(yī)渡云可以為面向醫(yī)療科研領(lǐng)域的多方安全計(jì)算解決方案帶來(lái)專業(yè)的方案設(shè)計(jì)2，而第三代英特爾至強(qiáng) 可擴(kuò)展處理器不僅為方案帶來(lái)了數(shù)據(jù)處理所需的強(qiáng)勁算力，其內(nèi)置的英特爾 SGX 也為方案提供了更可靠的數(shù)據(jù)安全防護(hù)，使用英特爾 SGX 構(gòu)建的基于TEE的聯(lián)邦學(xué)習(xí)方法，為多方數(shù)據(jù)安全、高效的聯(lián)合建模打造了更為可信的硬件環(huán)境。在面向醫(yī)療科研領(lǐng)域的實(shí)踐中，醫(yī)渡云已經(jīng)支持多家醫(yī)院和醫(yī)療科研機(jī)構(gòu)開(kāi)展了一系列基于多方安全計(jì)算解決方案的聯(lián)合研究項(xiàng)目。

綜合以上優(yōu)勢(shì)，醫(yī)渡云目前已通過(guò)了中國(guó)信息通信研究院在隱私保護(hù)計(jì)算技術(shù)上的兩項(xiàng)認(rèn)證，分別為《基于多方安全計(jì)算的數(shù)據(jù)流通產(chǎn)品技術(shù)要求與測(cè)試方法》與《基于聯(lián)邦學(xué)習(xí)的數(shù)據(jù)流通產(chǎn)品技術(shù)要求與測(cè)試方法》3。

隨著采用英特爾 SGX 的多方安全計(jì)算解決方案得到越來(lái)越多的客戶認(rèn)可，醫(yī)渡云已計(jì)劃將該方案作為未來(lái)核心產(chǎn)品的一個(gè)基礎(chǔ)組件來(lái)提供默認(rèn)的隱私計(jì)算能力，并根據(jù)用戶需求提供服務(wù)。

面向未來(lái)，醫(yī)渡云也將繼續(xù)攜手英特爾，針對(duì)多方安全計(jì)算中的多中心臨床研究解決方案開(kāi)展更為深入的合作，這些合作包括：將英特爾 SGX 及相關(guān)技術(shù)和框架用作其整體隱私計(jì)算解決方案中的重要選項(xiàng)，借助該技術(shù)在安全特性和性能上的雙重優(yōu)勢(shì)，為那些對(duì)計(jì)算性能要求較高的場(chǎng)景提供更優(yōu)的支持，并在單中心內(nèi)部的隱私保護(hù)、跨中心聯(lián)邦學(xué)習(xí)等更多場(chǎng)景中探索英特爾 SGX 的運(yùn)用。當(dāng)然，這些合作的目標(biāo)都是一致的，即為醫(yī)療科研事業(yè)的發(fā)展提供源源不斷的技術(shù)助力和數(shù)據(jù)積累?！　?/p>

? ? ? 審核編輯：彭靜

閱讀全文