世界初の純AMDでトレーニングされたMoE大規模モデルZAYA1が発表：14Tトークン+CCAアテンション、性能はQwen3と同等

AMDはIBMとAIスタートアップのZyphraと協力して、ZAYA1を発表しました。これは世界初の全プロセスがAMDハードウェアで訓練されたMoEベースモデルであり、14Tトークンの事前学習を行い、総合的な性能はQwen3シリーズと同等です。Qwen3プロフェッショナル版に指示微調整を行わずに数学/STEM推論に近づいています。

トレーニング規模

- クラスター: IBM Cloud 128ノード×8枚のAMD Instinct MI300X、計1024枚; InfinityFabric+ROCm、ピーク750PFLOPs

- データ: 14Tトークン、コース学習は一般的なウェブページ→数学/コード/推論へと進化します。後続のバージョンは別途リリースされます。

アーキテクチャのイノベーション

1. CCAアテンション: 畳み込み+圧縮埋め込みアテンションヘッド、メモリ使用量は32%減少し、長文の処理速度は18%向上しています。

2. ラインアラウトMoE: 専門家粒度の細分化と負荷バランス正則化により、Top-2ルーティング精度は2.3pp向上し、70%のスパース性でも高い利用率を維持しています。

ベンチマーク成績

ZAYA1-Base（インストラクションなし）はMMLU-Redux、GSM-8K、MATH、ScienceQAなどのベンチマークでQwen3-Baseと同等の結果を示します。CMATHとOCW-Mathでは顕著に上回り、STEMの潜在能力を証明しています。Zyphraは、インストラクションとRLHFバージョンは2026年第1四半期にリリースされ、APIと重みのダウンロードが公開される予定であると明らかにしています。

AMDがMK1を買収し、AI推論市場の展開を加速

AMDは2025年11月11日、AI推論分野の強化を目的にAI推論スタートアップMK1を買収。MK1のコア技術「Flywheel」はAMDのInstinct GPUと深く統合され、1日あたり兆単位のトークンを処理可能。買収後、MK1チームはAMD AI部門に編入され、市場地位の強化を図る。....

世界初の純AMDでトレーニングされたMoE大規模モデルZAYA1が発表：14Tトークン+CCAアテンション、性能はQwen3と同等

関連推奨

AMDがMK1を買収し、AI推論市場の展開を加速

AMDのCEOが語る：複数のOpenAIレベルの顧客がAIチップを購入し合っている

IBMは数千人の社員を削減し、人工知能やソフトウェアビジネスに焦点を当てます

IBMがGranite 4.0 Nanoモデルを発表、小規模AIモデルのパフォーマンスの限界を突破

米国エネルギー省がAMDと10億ドル規模の協力関係を締結し、スーパーコンピュータとAIプロジェクトの共同建設