谷歌近日開源醫療AI模型MedGemma1.5,最核心的突破在於突破了傳統2D圖像的侷限,具備了處理高維度醫療數據的能力,在多個關鍵醫療場景上實現了顯著跨越。
能力層面,MedGemma1.5的升級幅度相當全面。它原生支持CT和MRI三維掃描數據分析,可直接處理包含數十個切片的立體影像;支持病理學全視野數字切片分析,能在微觀層面尋找病變線索;在胸部X光分析中,可通過邊界框精準標註解剖結構和病變位置,而非僅給出模糊結論;還具備多時間點對比分析能力,追蹤病情是好轉、穩定還是惡化。此外,它對PDF格式電子病歷和化驗單的理解能力也大幅提升,能精準提取關鍵結構化數據。

成績單同樣亮眼。與上一代MedGemma14B相比,1.5版本在3D MRI病情分類上準確率絕對提升11%,全視野病理圖像宏觀F1分數提升47%,胸部X光解剖定位交併比增加35%,電子病歷問答準確率飆升22%。值得注意的是,這些提升均在保持40億參數量不變的前提下實現,計算效率極高。

技術實現上,團隊爲模型注入了放射學、皮膚科、病理學及合成電子健康記錄等大量醫學圖文配對數據,並設計了將3D CT掃描切分爲最多85張序列圖像的預處理方法;訓練後期還引入領域專家模型進行知識蒸餾,將專業經驗直接"傳授"給模型。
不過需要明確的是,MedGemma1.5並非開箱即用的臨牀決策工具。谷歌將其定位爲供開發者進一步微調的基礎資源,真正落地臨牀還需針對具體場景進行專項訓練。此外,模型在向"醫療通才"演進的過程中,在部分舊有小衆視覺問答基準上出現了極輕微的退步,這也是能力全面化不可避免的代價。
論文地址:https://www.alphaxiv.org/abs/2604.05081
