人工智能在醫(yī)療保健領(lǐng)域的應用正在急速增長,其行業(yè)的 AI 采用率已達到整體經(jīng)濟領(lǐng)域的兩倍。為了助力這一變革,Google 于去年通過Health AI Developer Foundations(HAI-DEF) 計劃發(fā)布了MedGemma 系列開放醫(yī)療生成式 AI 模型。MedGemma 等 HAI-DEF 模型旨在讓開發(fā)者以此為基石,評估和調(diào)整其醫(yī)療應用場景,開發(fā)者還可以通過 Vertex AI 在 Google Cloud 平臺輕松擴展這類模型。MedGemma 自發(fā)布以來持續(xù)引發(fā)熱烈反響,其在 Hugging Face 的下載量已達數(shù)百萬次,該平臺社區(qū)中也涌現(xiàn)出了數(shù)百個基于該模型的衍生版本。
我們乘勢而上,繼續(xù)發(fā)布MedGemma 1.5 4B,并在Kaggle平臺啟動MedGemma 挑戰(zhàn)賽黑客馬拉松?;陂_發(fā)者社區(qū)的直接反饋,本次模型更新讓開發(fā)者得以更高效地調(diào)整 MedGemma,以適配涉及多種醫(yī)學影像模態(tài)的應用場景:
高維醫(yī)學影像: 計算機斷層掃描 (CT)、核磁共振成像 (MRI) 和組織病理學
縱向醫(yī)學影像: 對胸部 X 光片進行的時間序列對比分析
解剖結(jié)構(gòu)定位: 在胸部 X 光片中定位解剖結(jié)構(gòu)特征
醫(yī)學文檔理解: 從醫(yī)學實驗報告中提取結(jié)構(gòu)化數(shù)據(jù)
相較于 MedGemma 1 4B,MedGemma 1.5 4B 在文字、醫(yī)療記錄和 2D 圖像等核心功能方面均提高了準確性。我們此次發(fā)布的更新版 4B 模型,旨在為開發(fā)者提供一個理想的計算高效起點,并且其規(guī)模小到足以離線運行。而對于更復雜的文本類應用,開發(fā)者可以繼續(xù)使用我們的MedGemma 1 27B 參數(shù)模型。您可以閱讀MedGemma 1.5 模型卡片,詳細了解 MedGemma 1.5 4B 模型及其性能基準。
我們還于近期在Hugging Face和Vertex AI平臺同步發(fā)布了MedASR,這是一款全新的自動化語音識別 (ASR) 開放模型,已針對醫(yī)療口述場景進行了微調(diào)。MedASR的初始版本讓開發(fā)者可以將醫(yī)療語音轉(zhuǎn)換成文字,并可與 MedGemma 無縫整合以執(zhí)行高級推理任務。
MedGemma 1.5、MedASR 和包括MedSigLIP 圖像編碼器在內(nèi)的所有 HAI-DEF 模型仍可免費用于研究和商業(yè)用途,您可以通過Hugging Face下載,也可以借助Vertex AI對其進行訓練和調(diào)整以滿足云端可擴展應用的需求。
MedGemma 挑戰(zhàn)賽
我們希望鼓勵開發(fā)者探索更多富有創(chuàng)意且具影響力的 MedGemma 模型應用場景,以推動醫(yī)療保健領(lǐng)域變革。為此,我們啟動了由 Kaggle 主辦的MedGemma 挑戰(zhàn)賽,這場黑客馬拉松獎金高達 100,000 美元,并向所有開發(fā)者開放,讓他們有機會基于 MedGemma 和 HAI-DEF 進行構(gòu)建,以展示 AI 在醫(yī)療保健和生命科學領(lǐng)域的潛力。我們期待看到大家的構(gòu)建成果!
醫(yī)學影像應用場景的性能改進
MedGemma 的初始定位就是一款多模態(tài)模型,旨在應對醫(yī)學的多模態(tài)特性。MedGemma 1 已支持解讀二維醫(yī)學影像,包括胸部 X 光片、皮膚科圖像、眼底影像和組織病理學切片。
而目前,我們正在借助 MedGemma 1.5 擴展對更高維醫(yī)學影像的支持,前期目標便是以三維立體方式展現(xiàn)CT 圖像和MRI,以及全切片組織病理學影像。開發(fā)者在創(chuàng)建應用時,可以將多個切片 (CT 或 MRI) 或多個圖塊 (病理學) 連同任務指令一并輸入模型。
內(nèi)部基準測試數(shù)據(jù)表明,相較于 MedGemma 1,MedGemma 1.5 在疾病相關(guān) CT 檢查結(jié)果分類方面的基準絕對準確率平均提升了 3% (61% vs. 58%),在疾病相關(guān) MRI 檢查結(jié)果分類方面的基準絕對準確率則平均提升了 14% (65% vs. 51%)。除此之外,在一項涵蓋組織病理學切片及相關(guān)檢查結(jié)果的多樣化內(nèi)部基準測試中,根據(jù)僅含一份病理學切片的病例得出的ROUGE-L分數(shù),MedGemma 1.5 預測結(jié)果的保真度較 MedGemma 1 提高了 0.47 (0.49 vs. 0.02),與任務專用PolyPath 模型取得的分數(shù) (0.498) 旗鼓相當。
CT 基礎(chǔ)模型則是我們之前用于生成 CT 嵌入向量的 API 工具,此次對高維的支持是其自然演進的產(chǎn)物。據(jù)我們所知,MedGemma 1.5 是首個公開發(fā)布的開放多模態(tài)大語言模型,既能解讀高維醫(yī)療數(shù)據(jù),同時又保留了對通用二維數(shù)據(jù)和文本的理解能力。雖然這些功能仍處于早期階段且有待完善,但開發(fā)者將能根據(jù)自有數(shù)據(jù)微調(diào) MedGemma 模型,以取得更亮眼的成效,并且我們也將持續(xù)改進 MedGemma 模型。我們已經(jīng)發(fā)布了教程 Notebook,用于說明如何將這種高維圖像功能用于 CT (Hugging Face、Model Garden) 和組織病理學 (Hugging Face、Model Garden)。
展示了如何使用 MedGemma 1.5 4B 解讀 CT 三維數(shù)據(jù),以及經(jīng)認證的胸部放射科醫(yī)生對輸出質(zhì)量所做的點評。請注意,MedGemma 不能在未經(jīng)開發(fā)者對其具體用例進行適當驗證、調(diào)整和/或做出實質(zhì)性修改的情況下直接使用。
在其他形式的醫(yī)學圖像解讀任務中,MedGemma 1.5 4B 模型的基準性能較 MedGemma 1 4B 也有顯著提升:
解剖結(jié)構(gòu)定位: 在胸部 X 光片中定位解剖特征;Chest ImaGenome基準測試結(jié)果表明,交并比提高了 35% (38% vs. 3%)。請參閱我們的解剖結(jié)構(gòu)定位教程 Notebook。
縱向醫(yī)學影像: 對胸部 X 光片進行的時間序列對比分析;MS-CXR-T基準測試結(jié)果表明,整體準確率提高了 5% (66% vs. 61%)。請參閱下方圖片示例,以及我們的縱向醫(yī)學影像教程 Notebook。
醫(yī)學圖像解讀: 針對胸部 X 光片、皮膚病學、組織病理學和眼科學的內(nèi)部單幅圖像基準測試表明,準確率提升了 3% (62% vs. 59%)。
檢驗報告提取: 從醫(yī)學檢驗報告中提取結(jié)構(gòu)化數(shù)據(jù) (檢驗類型、數(shù)值、單位);一項內(nèi)部檢驗報告基準測試的結(jié)果表明,檢索宏觀 F1 分數(shù)提高了 18% (78% vs. 60%)。
MedGemma 1.5 4B 增強了對醫(yī)學影像的支持,其在通過胸部 X 光片解讀高維圖像、定位解剖特征和評估縱向疾病、解讀通用醫(yī)學圖像,以及從醫(yī)學檢驗報告中提取內(nèi)容等方面的表現(xiàn)均優(yōu)于 MedGemma 1 4B。
展示如何使用 MedGemma 1.5 4B 解讀胸部 X 光片縱向成對圖像,以及經(jīng)認證的胸部放射科醫(yī)生對輸出質(zhì)量所做的點評。請注意,MedGemma 不能在未經(jīng)開發(fā)者對其具體用例進行適當驗證、調(diào)整和/或做出實質(zhì)性修改的情況下直接使用。
此外,部署于Google Cloud的 MedGemma 應用現(xiàn)已全方位支持 DICOM,這使得調(diào)整 MedGemma 以滿足醫(yī)學影像應用之需變得更加容易。
文本功能改進
除了改進對醫(yī)療圖像的支持,我們還努力提升了 MedGemma 的基礎(chǔ)醫(yī)學文本處理能力。在引入全新訓練數(shù)據(jù)集和訓練技術(shù)后,MedGemma 1.5 4B 在MedQA方面的表現(xiàn)較 MedGemma 1 4B 提升了 5% (69% vs. 64%),在針對 EHR 問題 (EHRQA) 方面更是提升了 22% (90% vs. 68%)。
與 MedGemma 1 4B 相比,MedGemma 1.5 4B 在基于文字的任務領(lǐng)域有所改進,包括在醫(yī)學推理 (MedQA) 和電子健康檔案信息 (EHRQA) 檢索方面的表現(xiàn)。
MedASR: 面向醫(yī)學自動化語音識別的開放模型
雖然文本目前仍是大語言模型的主要交互方式,但口頭交流在醫(yī)療保健的多個方面仍然至關(guān)重要,其中包括處理醫(yī)療口述,以及醫(yī)患之間的實時對話等。除此之外,語音也提供了一種與語言模型交互的更自然的方式。
我們研發(fā)了用于醫(yī)療場景語音轉(zhuǎn)譯的MedASR語音轉(zhuǎn)文本模型,以支持需要熟悉醫(yī)療保健領(lǐng)域?qū)I(yè)詞匯的應用場景。MedASR 既可用于轉(zhuǎn)錄醫(yī)療口述,還可作為一種更自然的交互方式,為 MedGemma 生成輸入指令。在對比 MedASR 與通用 ASR 模型Whisper large-v3的性能后,我們發(fā)現(xiàn) MedASR 在處理胸部 X 光片語音輸入內(nèi)容方面的錯誤率降低了 58% (單詞錯誤率 (WER): 5.2% vs. 12.5%),在涉及多種專業(yè)和多位發(fā)言人的內(nèi)部醫(yī)療口述基準測試中,錯誤率更是減少了 82% (WER: 5.2% vs. 28.2%)。我們發(fā)布了一系列教程 Notebook,希望可以幫助開發(fā)者創(chuàng)建和適配他們的自有系統(tǒng),以將 MedASR 的音頻理解能力與 MedGemma 1.5 的臨床推理能力完美結(jié)合。您可以參閱MedASR 模型卡片了解詳情。
MedASR 既可用于轉(zhuǎn)錄醫(yī)療口述 (上圖),也可用于為 MedGemma 生成輸入指令 (下圖)。
開發(fā)者如何使用 MedGemma
我們看到世界各地的醫(yī)療健康科技初創(chuàng)公司與開發(fā)者正積極利用 MedGemma,以加速推進面向各種用例和應用場景的研究與產(chǎn)品開發(fā)進程。
例如,Qmed Asia已將 MedGemma 整合至askCPG,為馬來西亞 150 多項臨床實踐指南提供了一個交互式的對話界面。據(jù)馬來西亞衛(wèi)生部稱,此對話式界面顯著提升了臨床指南在日常決策支持中的實用性,并且通過 MedGemma 提供的多模態(tài)醫(yī)學圖像擴展程序在試點部署中頗受歡迎。
此外,臺灣地區(qū)的健康保險署已將 MedGemma 引入肺癌手術(shù)的術(shù)前評估體系。他們使用 MedGemma 從 30,000 余份病理學報告和非結(jié)構(gòu)化數(shù)據(jù)中提取關(guān)鍵數(shù)據(jù),繼而執(zhí)行統(tǒng)計分析,以評估患者的術(shù)前狀況。這項工作旨在為政策決策提供參考信息,以優(yōu)化手術(shù)切除的決策流程,從而改善患者預后結(jié)果。
自發(fā)布以來,MedGemma 已在醫(yī)學 AI 研究中被廣泛引用,作為理解醫(yī)學文字、協(xié)助制定多學科聯(lián)合會診、解讀乳腺 X 光片報告及其他臨床應用場景的基礎(chǔ)模型,并且性能表現(xiàn)優(yōu)于其他模型。
開始使用
您可以通過Hugging Face 合集或Google Cloud 的 Vertex AI獲取 MedGemma 全系列模型。MedASR 當前已在Hugging Face和Vertex AI平臺上線。如果您對構(gòu)建下一代醫(yī)療 AI 應用充滿想法,歡迎參與MedGemma 挑戰(zhàn)賽。
歡迎瀏覽我們的MedGemma GitHub 代碼庫,探索擴展系列教程,其中包括有關(guān)運行推理和基于 LoRA 的監(jiān)督式微調(diào)的教程,以及有關(guān)強化學習的全新教程,這種調(diào)整方法對于學習復雜任務尤為有效,并且不會影響現(xiàn)有模型功能。
MedGemma GitHub 代碼庫
https://github.com/Google-Health/medgemma/tree/main/notebooks
強化學習的全新教程
https://github.com/Google-Health/medgemma/blob/main/notebooks/reinforcement_learning_with_hugging_face.ipynb
您可以訪問HAI-DEF 網(wǎng)站,獲取有關(guān) MedGemma 1.5 和其他 Health AI Developer Foundations (健康領(lǐng)域的 AI 開發(fā)者基礎(chǔ)) 模型的資源,也可以訂閱我們的簡報。歡迎前往HAI-DEF 論壇獲取技術(shù)支持。
我們非常期待社區(qū)成員能夠利用這些新模型構(gòu)建出精彩應用,并且歡迎大家提供反饋意見。
此表總結(jié)了模型功能,有助于您了解哪款模型最適合您的用例。
數(shù)據(jù)集說明
我們根據(jù)多個公開和私有的去標識化數(shù)據(jù)集對模型進行了訓練和評估。Google 及其合作伙伴均采用經(jīng)過嚴格匿名化或去識別化的數(shù)據(jù)集,以保護個人研究參與者和患者的隱私。
免責聲明
MedGemma 與 MedASR 等 HAI-DEF 系列模型作為一個研發(fā)起點,旨在助力開發(fā)者高效構(gòu)建處理醫(yī)療文本與影像的下游應用。HAI-DEF 不能在未經(jīng)開發(fā)者對其具體用例進行適當驗證、調(diào)整和/或做出實質(zhì)性修改的情況下直接使用。這些模型生成的輸出不能直接用于提供臨床診斷、患者管理決策、治療建議,或任何其他臨床實踐應用。此處報告的性能基準僅用于突出顯示基準功能,并不意味著 MedGemma 在任何特定醫(yī)療應用中都安全可靠。可能存在此處未有列出的模型輸出錯誤。所有模型輸出均應被視作初步結(jié)果,并且需要通過成熟的研發(fā)方法進行獨立驗證、臨床關(guān)聯(lián)和深入調(diào)查。如需了解詳細信息,請參閱使用條款和禁止使用政策。
致謝
MedGemma、MedGemma 挑戰(zhàn)賽和 MedASR 是多個 Google 團隊協(xié)作負責的項目。非常感謝為這些項目做出貢獻的諸位伙伴,包括 Health AI、Gemma 和 Kaggle 工程團隊成員和跨職能團隊成員,以及 Google 研究和 Google DeepMind 的贊助商。
-
Google
+關(guān)注
關(guān)注
5文章
1816瀏覽量
60655 -
醫(yī)療
+關(guān)注
關(guān)注
8文章
2029瀏覽量
61808 -
AI
+關(guān)注
關(guān)注
91文章
41326瀏覽量
302705
原文標題:利用 MedGemma 1.5 與 MedASR 構(gòu)建下一代醫(yī)療應用
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
中科創(chuàng)達與恩智浦共同打造面向下一代汽車中央計算架構(gòu)的參考設(shè)計方案
匯川技術(shù)以機電融合戰(zhàn)略打造下一代工業(yè)母機架構(gòu)平臺
Kapsch TrafficCom借助TomTom Traffic打造下一代智能出行產(chǎn)品
FT 5000 Smart Transceiver:下一代智能網(wǎng)絡芯片的卓越之選
DSP Concepts與AMD助力打造下一代汽車音頻
理想汽車發(fā)布下一代自動駕駛基礎(chǔ)模型MindVLA-o1
借助谷歌FunctionGemma模型構(gòu)建下一代端側(cè)智能體
探索Bourns GDT21系列:下一代氣體放電管浪涌保護器的卓越性能與應用價值
英飛凌下一代電磁閥驅(qū)動器評估套件使用指南
Amphenol Aerospace高壓38999連接器:滿足下一代飛機電力需求
Telechips與Arm合作開發(fā)下一代IVI芯片Dolphin7
用于下一代 GGE 和 HSPA 手機的多模式/多頻段功率放大器模塊 skyworksinc
適用于下一代 GGE 和 HSPA 手機的多模/多頻段 PAM skyworksinc
借助Google MedGemma系列模型打造下一代醫(yī)療應用
評論