近日,美國生命科學公司Tahoe Bio(前身爲Vevo Therapeutics)正式發佈其重磅AI基礎模型——Tahoe-x1(Tx1),一個專爲解碼基因、細胞與藥物三者複雜關係而生的30億參數大模型。該模型的推出,標誌着AI正式從“輔助工具”升級爲“生命系統建模引擎”,爲癌症靶點發現與個性化療法開闢全新路徑。

架構革新:30億參數,專爲單細胞世界而生
Tahoe-x1基於Transformer編碼器架構,採用掩碼語言建模(MLM)進行預訓練,訓練數據涵蓋驚人的2.66億單細胞轉錄組譜,其中包括Tahoe Bio自建的Tahoe-100M擾動數據集——該數據集記錄了上千種分子對癌症細胞系的擾動響應,已被全球科研社區下載近20萬次。
爲兼顧性能與實用性,模型家族提供多尺寸版本(如Tx1-70M),並通過FlashAttention v2等優化技術,實現比同類細胞模型高3至30倍的計算效率,即便在普通GPU上也能高效運行,極大降低科研門檻。
能力一:精準鎖定癌症“命門”,超越現有所有模型
在基因必需性(Gene Essentiality)預測任務中,Tahoe-x1在權威DepMap數據集上全面超越現有模型,能準確識別不同癌症亞型中維持腫瘤生存的“核心驅動基因”。這一能力可幫助研究人員快速鎖定高價值靶點,大幅縮短從發現到驗證的週期,尤其適用於異質性強的難治性癌症。
能力二:自動還原癌變通路,揭示分子協同網絡
模型不僅能識別單個基因,更能捕捉癌變過程中協同激活的信號通路。在MSigDB數據庫測試中,Tahoe-x1對“癌變標誌通路”(hallmark programs)的還原準確率居首,可自動解析如細胞週期失控、DNA修復缺陷等關鍵生物學程序,爲多靶點聯合療法提供系統性洞見。
能力三:零樣本預測藥效,虛擬臨牀試驗成爲現實
最令人振奮的是Tahoe-x1的零樣本泛化(zero-shot generalization)能力——即使面對從未見過的細胞類型或患者樣本,模型也能基於已有知識“類比推理”,預測其對特定藥物的反應。這意味着,未來藥物研發可在計算機中先行模擬成千上萬種治療方案,篩選出最有潛力的組合,再進入實驗室或臨牀階段,顯著降低試錯成本與失敗率。
結合後訓練框架,該模型還可適配多樣化患者背景,加速個性化癌症療法的落地。
AIbase觀察:開源+數據驅動,生物AI生態加速成熟
Tahoe Bio已累計融資4200萬美元,正構建目標達10億數據點的全球最大單細胞擾動圖譜。此次Tahoe-x1不僅開源模型權重(Hugging Face)、代碼(GitHub),還提供交互式演示,預印本亦已上線bioRxiv,全面擁抱科研社區協作。
AIbase認爲,Tahoe-x1的真正突破,在於它讓AI從“統計相關性”邁向“機制理解力”。當模型能像生物學家一樣思考基因如何調控、藥物如何幹預、細胞如何響應,藥物研發範式將從“試錯式”全面轉向“預測式”。
未來,隨着數據規模持續擴展,Tahoe-x1或將成爲精準醫療的基礎設施——在虛擬世界中預演千萬種治療可能,只爲在現實世界中,爲患者贏得那一次最有效的治療機會。
