最近、アメリカの生命科学企業であるTahoe Bio(旧称:Vevo Therapeutics)は、その注目のAIベースモデル「Tahoe-x1(Tx1)」を正式に発表しました。このモデルは、遺伝子・細胞・薬剤の複雑な関係を解読するために設計された30億パラメータの大規模モデルです。このモデルの登場により、AIは「補助ツール」から「生命システムモデリングエンジン」へと進化し、がんのターゲット発見や個別化療法に新たな道を開くことになりました。

image.png

アーキテクチャの革新: 30億パラメータ、単細胞世界のために作られたモデル

Tahoe-x1は、Transformerエンコーダーのアーキテクチャに基づいており、マスク言語モデリング(MLM)による予トレーニングが行われています。訓練データには驚くほど2億6,600万の単細胞転写プロファイルが含まれており、その中にはTahoe Bioが自前で構築したTahoe-100Mの撹乱データセットが含まれます。このデータセットは、数千種類の分子ががん細胞系に与える撹乱反応を記録しており、グローバルな研究コミュニティから約20万回ダウンロードされています。

性能と実用性の両方を考慮して、モデルファミリはさまざまなサイズのバージョン(例: Tx1-70M)を提供しており、FlashAttention v2などの最適化技術により、他の同様の細胞モデルよりも3〜30倍の計算効率を達成しています。これにより、通常のGPUでも効率的に動作可能となり、研究のハードルを大幅に下げました。

機能①: 精確にがんの「命門」を特定、現存するすべてのモデルを上回る

遺伝子必須性(Gene Essentiality)予測タスクにおいて、Tahoe-x1は権威あるDepMapデータセットで既存のモデルを全面的に上回り、異なるがん亜型において腫瘍の生存を維持する「コアドライバー遺伝子」を正確に特定できます。この能力により、研究者は高価値なターゲットを迅速に特定でき、発見から検証までの期間を大幅に短縮できます。特に異質性が強い難治性のがんに対して有効です。

機能②: キャンセリーの経路を自動的に復元、分子協働ネットワークを明らかにする

モデルは単一の遺伝子だけでなく、がんの進行中に協調して活性化されるシグナル経路も捉えられます。MSigDBデータベースでのテストでは、Tahoe-x1は「がんの特徴的な経路(hallmark programs)」の復元精度がトップであり、細胞周期の制御不能やDNA修復欠損など、重要な生物学的プロセスを自動的に解析できます。これにより、多ターゲット連合療法に向けた統合的な洞察が得られます。

機能③: ゼロサンプルで薬効を予測、仮想臨床試験が現実となる

最も注目すべき点は、Tahoe-x1がゼロサンプル一般化(zero-shot generalization)能力を持っていることです。これは、これまで見たことのない細胞タイプや患者サンプルに対しても、既存の知識をもとに「類似推論」を行い、特定の薬に対する反応を予測できるというものです。つまり、将来的にはコンピュータ上で何千もの治療計画を模擬し、有望な組み合わせを抽出した後、研究室や臨床段階に移行することで、誤りのコストや失敗率を大きく削減することが可能です。

後トレーニングフレームワークを組み合わせることで、このモデルはさまざまな患者背景に適合し、個別化がん治療の実装を加速します。

AIbaseの観察: オープンソース+データ駆動、バイオAIエコシステムが成熟に向かう

Tahoe Bioはこれまでに4,200万ドルの資金調達を実施しており、最大10億データポイントを持つ世界最大の単細胞撹乱マップの構築を目指しています。今回のTahoe-x1は、モデル重み(Hugging Face)、コード(GitHub)をオープンソース化し、インタラクティブなデモも提供しており、プレプリントもbioRxivに掲載されており、研究コミュニティとの協力を積極的に受け入れています。

AIbaseによると、Tahoe-x1の真の突破点は、AIが「統計的相関」から「メカニズム理解力」へと進化したことにあります。モデルが生物学者のように、遺伝子がどのように調節され、薬がどのように作用し、細胞がどのように反応するかを考えられるようになれば、薬物開発の枠組みは「試行錯誤型」から「予測型」へと全面的に変わるでしょう。