谷歌開源醫療AI新星MedGemma 1.5：從看平面圖到讀懂3D影像

谷歌近日開源醫療AI模型MedGemma1.5，最核心的突破在於突破了傳統2D圖像的侷限，具備了處理高維度醫療數據的能力，在多個關鍵醫療場景上實現了顯著跨越。

能力層面，MedGemma1.5的升級幅度相當全面。它原生支持CT和MRI三維掃描數據分析，可直接處理包含數十個切片的立體影像;支持病理學全視野數字切片分析，能在微觀層面尋找病變線索;在胸部X光分析中，可通過邊界框精準標註解剖結構和病變位置，而非僅給出模糊結論;還具備多時間點對比分析能力，追蹤病情是好轉、穩定還是惡化。此外，它對PDF格式電子病歷和化驗單的理解能力也大幅提升，能精準提取關鍵結構化數據。

成績單同樣亮眼。與上一代MedGemma14B相比，1.5版本在3D MRI病情分類上準確率絕對提升11%，全視野病理圖像宏觀F1分數提升47%，胸部X光解剖定位交併比增加35%，電子病歷問答準確率飆升22%。值得注意的是，這些提升均在保持40億參數量不變的前提下實現，計算效率極高。

技術實現上，團隊爲模型注入了放射學、皮膚科、病理學及合成電子健康記錄等大量醫學圖文配對數據，並設計了將3D CT掃描切分爲最多85張序列圖像的預處理方法;訓練後期還引入領域專家模型進行知識蒸餾，將專業經驗直接"傳授"給模型。

不過需要明確的是，MedGemma1.5並非開箱即用的臨牀決策工具。谷歌將其定位爲供開發者進一步微調的基礎資源，真正落地臨牀還需針對具體場景進行專項訓練。此外，模型在向"醫療通才"演進的過程中，在部分舊有小衆視覺問答基準上出現了極輕微的退步，這也是能力全面化不可避免的代價。

論文地址：https://www.alphaxiv.org/abs/2604.05081

英偉達發佈 Lyra2.0:單照生成90米3D 環境，多項指標超越競爭對手

英偉達發佈Lyra2.0系統，通過單張照片即可生成延伸90米的大規模、高連貫性3D虛擬環境，解決了長距離相機路徑下的圖像失真問題。該技術突破標誌着AI在3D空間理解與實時環境模擬領域取得重要進展，尤其滿足了具身智能訓練對高質量虛擬場景的迫切需求。

Meta持續挖角AI初創公司，Thinking Machines再失核心成員

Meta持續從AI初創公司挖角，最新目標是Thinking Machines資深工程師Joshua Gross，他已加入Meta超級智能實驗室並領導工程團隊。Gross曾在OpenAI和Meta工作，並在Thinking Machines主導開發了創意軟件Tinker。這反映了硅谷AI人才爭奪激烈，初創公司面臨人才流失挑戰。

谷歌開源醫療AI新星MedGemma 1.5：從看平面圖到讀懂3D影像

相關推薦

ChatGPT 用戶突破 10 億，女性用戶佔比首次超過 50%

星巴克引入 ChatGPT，根據心情推薦飲品

Claude 強制實名驗證引發爭議：用戶擔心封號風險

英偉達發佈 Lyra2.0:單照生成90米3D 環境，多項指標超越競爭對手

Meta持續挖角AI初創公司，Thinking Machines再失核心成員

谷歌開源醫療AI新星MedGemma 1.5：從看平面圖到讀懂3D影像

相關推薦

ChatGPT 用戶突破 10 億，女性用戶佔比首次超過 50%

​星巴克引入 ChatGPT，根據心情推薦飲品

​Claude 強制實名驗證引發爭議：用戶擔心封號風險

英偉達發佈 Lyra2.0:單照生成90米3D 環境，多項指標超越競爭對手

Meta持續挖角AI初創公司，Thinking Machines再失核心成員

星巴克引入 ChatGPT，根據心情推薦飲品

Claude 強制實名驗證引發爭議：用戶擔心封號風險