今天,吳恩達(dá)發(fā)推公布了斯坦福發(fā)布的兩個(gè)大型的醫(yī)療數(shù)據(jù)集公開:CheXpert和MIMIC-CXR。其中,CheXpert內(nèi)含224316X光胸部圖片,MIMIC-CXR內(nèi)含371,920張帶標(biāo)簽的圖片。兩個(gè)數(shù)據(jù)集的數(shù)據(jù)量級和標(biāo)注精準(zhǔn)度都非常高,可以說是造福了一大批相關(guān)從業(yè)者了。
數(shù)據(jù)集下載方式
先給出數(shù)據(jù)集介紹的地址和下載方式。
https://stanfordmlgroup.github.io/competitions/chexpert/

因?yàn)槭轻t(yī)學(xué)數(shù)據(jù)集,斯坦福采取了相對謹(jǐn)慎的態(tài)度。根據(jù)說明,用戶需要遵守下載規(guī)則,填寫資料然后通過電子郵件給出的鏈接進(jìn)行下載。為了保持?jǐn)?shù)據(jù)集的完整性以及有效性,嚴(yán)禁進(jìn)行“濫用”分享。
數(shù)據(jù)集概況
CheXpert數(shù)據(jù)集里面有224316張胸部X光圖片,共涉及65,240名患者。數(shù)據(jù)集的時(shí)間跨度為2002年10月到2017年7月,都是患者在斯坦福醫(yī)院進(jìn)行胸部X光檢查之后的留存。除此之外,數(shù)據(jù)集還附有相關(guān)的放射學(xué)報(bào)告。
如何為CheXpert數(shù)據(jù)集打標(biāo)簽
每份報(bào)告都對14項(xiàng)觀察進(jìn)行標(biāo)記,標(biāo)記可能是陽性,陰性或不確定性。
14項(xiàng)觀察是根據(jù)報(bào)告中的流行程度和臨床相關(guān)性確定的,并在適用的情況下符合Fleischner Society推薦的術(shù)語表。
此外,還開發(fā)了一種基于規(guī)則的自動貼標(biāo)機(jī),用于從放射學(xué)報(bào)告中提取觀察結(jié)果,用作圖像的結(jié)構(gòu)化標(biāo)簽。貼標(biāo)機(jī)工作分為三個(gè)不同的階段:提及提取,提及分類和提及聚合。
自動貼標(biāo)機(jī)github地址:
https://github.com/stanfordmlgroup/chexpert-labeler
在提及提取階段,貼標(biāo)機(jī)從放射學(xué)報(bào)告的“印象”部分的觀察列表中提取提及,這一部分總結(jié)了放射研究中的關(guān)鍵發(fā)現(xiàn)。在提及分類,則是用每一個(gè)提及來分類,把觀察到的歸類為陰性的,不確定的或陽性的。在提到聚合階段,使用每次提及觀察的分類,就會得到14個(gè)觀察的最終標(biāo)簽。


基準(zhǔn)模型
基準(zhǔn)模型采用以單視角胸片作為輸入,并輸出14次觀測中每一次的概率。當(dāng)多個(gè)視圖可用的時(shí)候,模型給出最大概率。
利用不確定性標(biāo)簽
數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集的標(biāo)簽分別為0、1或u。其中,0表示負(fù),1表示正,u表示不確定。在模型訓(xùn)練中,使用了不確定性標(biāo)簽的不同方法。
U-Ignore:在訓(xùn)練期間忽略了不確定的標(biāo)簽。
U-Zeroes:將不確定標(biāo)簽的所有實(shí)例映射到0。
U-Ones:將不確定標(biāo)簽的所有實(shí)例映射到1。
U-SelfTrained:首先使用U-Ignore方法訓(xùn)練模型進(jìn)行收斂,然后使用該模型進(jìn)行預(yù)測,利用模型輸出的概率預(yù)測重新標(biāo)記每個(gè)不確定性標(biāo)簽。
U-MultiClass:將不確定性標(biāo)簽視為自己的類別。
專注于評估5項(xiàng)觀察,進(jìn)行“競爭任務(wù)”,根據(jù)臨床經(jīng)驗(yàn)和患病率分為:(a)肺不張,(b)心臟擴(kuò)大,(c)肺實(shí)變,(d)水腫(e)胸腔積液。通過比較了不同不確定性方法在200個(gè)研究的驗(yàn)證集上的表現(xiàn),其中三個(gè)放射科醫(yī)師的注釋作為基礎(chǔ)事實(shí)?;鶞?zhǔn)模型根據(jù)驗(yàn)證集上每個(gè)競賽任務(wù)的最佳表現(xiàn)方法選擇的:U- Ones用于肺不張和水腫,U-MultiClass用于心臟擴(kuò)大和胸腔積液,U-SelfTrained用于肺實(shí)變。

測試集如何設(shè)計(jì)
CheXpert中的測試集由來自500“未知”患者的500張X光胸片組成。八名權(quán)威認(rèn)證的放射科醫(yī)師分別對測試集中的每張圖片進(jìn)行了注釋。他們將每張圖片標(biāo)記為:現(xiàn)存(present)、不確定(uncertain likely)、不可能(uncertain unlikely)和缺失(absent)。
然后將標(biāo)簽二值化,將現(xiàn)存和不確定病例視為陽性,而缺失和不可能病例視為陰性。根據(jù)5位專家的投票確定圖片標(biāo)簽,然后用剩下的三位專家檢驗(yàn)五位專家的表現(xiàn)。
基準(zhǔn)模型在測試集上表現(xiàn)如何
該模型在胸腔積液(0.97)上達(dá)到最佳AUC,在肺不張(0.85)上達(dá)到最差。所有其他觀測的AUC至少為0.9。在心臟擴(kuò)大,水腫和胸腔積液上,該模型比所有3位放射科醫(yī)師獲得更高的表現(xiàn),但卻不是他們的多數(shù)投票。在肺實(shí)變方面,模型性能超過3位放射科醫(yī)師中的2位,而在Atelectasis上,所有3位放射科醫(yī)師的表現(xiàn)均優(yōu)于模型。

與麻省理工學(xué)院的聯(lián)合發(fā)布MIMIC-CXR數(shù)據(jù)集
此外還有和MIMIC-CXR共同發(fā)布包含371,920張胸部X射線圖片的大型數(shù)據(jù)集。該數(shù)據(jù)集的時(shí)間跨度為2011年~2016年。這些數(shù)據(jù)與Beth Israel Deaconess醫(yī)療中心的227,943個(gè)影像學(xué)研究相關(guān)。每個(gè)成像研究可能包含一個(gè)或多個(gè)圖像,但一般是兩個(gè)圖像:正面視圖和側(cè)視圖。
相關(guān)論文下載地址:https://arxiv.org/pdf/1901.07042.pdf
圖像提供有14個(gè)標(biāo)簽,這些標(biāo)簽來自放射學(xué)報(bào)告的自然語言處理工具。CheXpert數(shù)據(jù)集和MIMIC-CXR共享一個(gè)共同的貼標(biāo)機(jī),CheXpert貼標(biāo)機(jī),用于從放射學(xué)報(bào)告中獲取相同的標(biāo)簽集。
最后展望
阻礙胸部X光片解釋模型發(fā)展之一是,缺乏具有強(qiáng)放射學(xué)家注釋的地面真實(shí)性和專家評分的數(shù)據(jù)集。研究人員可以根據(jù)這些數(shù)據(jù)對其模型進(jìn)行比較。希望CheXpert將填平這一溝谷,以便在臨床重要任務(wù)中隨時(shí)跟蹤模型的進(jìn)展。
此外,吳恩達(dá)團(tuán)隊(duì)本次開發(fā)并開源了CheXpert貼標(biāo)機(jī),這是一種基于規(guī)則的自動貼標(biāo)機(jī),用于從自由文本放射學(xué)報(bào)告中提取觀察結(jié)果,用作圖像的結(jié)構(gòu)化標(biāo)簽。我們希望這可以幫助其他機(jī)構(gòu)輕松地從報(bào)告中提取結(jié)構(gòu)化標(biāo)簽,并發(fā)布其他大型數(shù)據(jù)庫,以便對醫(yī)學(xué)成像模型進(jìn)行跨機(jī)構(gòu)測試。
最后,斯坦福也作出展望,希望該數(shù)據(jù)集能夠幫助開發(fā)和驗(yàn)證胸部X光片解釋模型,以改善全球醫(yī)療服務(wù)的獲取和交付。
-
MIT
+關(guān)注
關(guān)注
3文章
254瀏覽量
25043 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1240瀏覽量
26270
原文標(biāo)題:斯坦福聯(lián)合MIT,發(fā)布兩類巨大量級X光胸片數(shù)據(jù)集
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
斯坦福SR830鎖相放大器參考頻率設(shè)置方法詳解
如何校準(zhǔn)斯坦福鎖相放大器的增益
斯坦福鎖相放大器SR830參考頻率設(shè)置方法詳解
云知聲CEO黃偉博士做客斯坦福“與AI同行”系列講座
斯坦福鎖相放大器相位的正確設(shè)置方法
斯坦福鎖相放大器與塞恩鎖相放大器的選型對比分析
IBM Granite登頂斯坦福大學(xué)2025年基礎(chǔ)模型透明度指數(shù)報(bào)告
斯坦福團(tuán)隊(duì)開發(fā)新型鐵基電池材料推動儲能技術(shù)發(fā)展
斯坦福SR860數(shù)字鎖相放大器
回收出售租賃維修二手斯坦福SR620頻率計(jì)
斯坦福(Stanford)鎖相放大器故障修復(fù)
斯坦福SR530鎖相放大器技術(shù)手冊
斯坦福SR445A科研級前置放大器安裝、操作與維護(hù)指南
斯坦福SR830鎖相放大器低量程報(bào)錯(cuò)維修步驟詳解
斯坦福DG535脈沖發(fā)生器無法啟動故障診斷與維修方案
斯坦福攜手MIT發(fā)布巨大量級X光胸片數(shù)據(jù)集
評論