AIビジョン生成分野で画期的な突破が生じました。MiniMaxと華中科技大学は最近、そのコア技術であるVTP(Visual Tokenizer Pretraining、視覚トークナイザープリトレーニング)をオープンソース化しました。標準的なDiT(Diffusion Transformer)の構造を変更することなく、ビジュアルトークナイザ(Visual Tokenizer)を最適化するだけで、エンドツーエンドの画像生成性能が65.8%向上しました。この成果は「大きなモデルを積み重ねるしかない」という業界の常識を覆し、初めてビジュアルトークナイザをこれまでにない技術的高さへと押し上げました。

メインモデルに手を出さずに、「翻訳官」だけを変えれば性能が倍増

従来の生成モデル(DALL·E3やStable Diffusion3など)はDiTなどの主なネットワークに依存して性能を向上させていましたが、VTPは異色のアプローチを取っています。それは、画像を離散的なトークンシーケンスに圧縮する「ビジュアル翻訳官」として機能するビジュアルトークナイザを核心的な最適化対象としていることです。

ポイントは、VTPがDiTのあらゆるトレーニングフローまたは構造を変更することなく、プリトレーニング段階でのみトークナイザを専門的に最適化することで、出力されるlatent表現が学習しやすく、汎用性が高くなるようにしている点です。これにより、下流のDiTは効率よく動作します。実験結果によると、同じDiT構成においてVTPを使用したシステムの生成品質(FID、CLIP Scoreなど)はベースラインを大幅に上回ることが確認されています。

image.png

初めて「トークナイザ拡張性」の理論枠組みを確立

VTPの突破は工程的な最適化だけでなく、新たな理論的視点も提案しています:

- latent表現の学習可能性(learnability)と汎用的なビジュアル表現能力との関連性を初めて明確にしています;

- トークナイザ自体が拡張可能(tokenizer scaling)であることを初めて証明しました。トークナイザの容量、トレーニングデータおよびプリトレーニング戦略が強化されると、生成性能は明確なscalingカーブを示します;

- 行業に「モデル以外の性能向上経路」を開きました。今後は、DiTのパラメータを無闇に拡大するのではなく、トークナイザを最適化することで、よりコストパフォーマンスの高い性能向上が可能になるかもしれません。

image.png

オープンソースがインスパイア、視覚生成の民主化を推進

現在、VTPのコード、プリトレーニングされたトークナイザおよびトレーニングの方法はすべてオープンソース化されており、主流のDiT実装と互換性があります。これは、DiTアーキテクチャを使用している研究者や企業であれば、誰でも「即插即用」でVTPを導入でき、低コストでほぼ70%の生成品質の向上を得られることを意味しています。特に計算資源が限られている中小チームにとって大きなメリットとなります。

AIbaseは、VTPの発表がAI生成技術が「システムレベルの最適化」の新しい段階に入ったことを示すものだと考えています。業界が「大きなモデル論」から「全チェーンの協調最適化」へと転換する中、MiniMaxと華中科技大学の今回の共同作業は、技術的な勝利だけでなく、「効率的なAI」の開発理念への強い実践でもあります。真のイノベーションとは、大きなエンジンを作るだけでなく、各部品がもっと賢く協働するようにすることなのです。

コード:https://github.com/MiniMax-AI/VTP

論文:https://arxiv.org/abs/2512.13687v1