Luma Labs は 3 月 23 日、画像生成モデル「Uni-1」をリリースしました。これは同社が Unified Intelligence アーキテクチャに基づいて公開した初のモデルです。公式サイトでは無料トライアルが開始され、API の料金も同時に発表されました。企業向けのアクセス経路は順次オープンされます。

アーキテクチャの変化:拡散モデルから自己回帰モデルへ
Uni-1 は現在主流の拡散モデルではなく、デコーダーのみの自己回帰型 Transformer を採用しています。テキストトークンと画像トークンを交互に並べたシーケンスを一度のフォワードプロパゲーションで処理し、推論とピクセル生成を行います。
Luma のCEOであるAmit Jain氏は、従来の方法では言語モデルで計画を立て、それを拡散モデルに渡して生成するという二段階のプロセスが使われており、情報の損失があると説明しています。Uni-1 の設計目的はこの断層をなくすことです。
Jain氏は以前Appleで勤務し、Vision Proプロジェクトに関与していました。
機能:参照画像制御とマルチスタイル生成
Uni-1 は1枚または複数枚の参照画像によって生成を制御でき、人物のアイデンティティやポーズ、構図を保持します。公式テストによると、キャラクターの一貫性や人物像の制御において、複数参照画像モードは安定した性能を示しています。
モデルは76種類のビジュアルスタイルをサポートしており、写実的な写真、マンガ、浮世絵などのカテゴリをカバーしています。
デモでは、「ゴールデンゲートブリッジのインフォグラフィックを描いて」と入力すると、モデルはレイアウトを自動的に計画し、橋の構造図を生成し、「1711 メートル」といったデータを表示します。内部の推論プロセスはリアルタイムで確認できます。
ベンチマークテスト:空間的推論と参照画像生成で優位

Luma が公表したデータによると、Uni-1 は RISEBench 推論ベンチマークで総合得点 0.51 を記録し、Google Nano Banana 2 の 0.50 や OpenAI GPT Image 1.5 の 0.46 を上回っています。空間的推論の項目では 0.58、論理的推論では 0.32 で、後者は GPT Image の約2倍です。
ODinW-13 物体検出では46.2 mAPを記録し、Google Gemini 3 Pro の46.3 に近づいています。
人間の好み Elo ランキングでは、全体的な好み、スタイルと編集、参照画像生成の3つで1位となり、テキストから画像への生成では2位となりました。
価格
API はトークン単位で課金されます。入力テキストは 0.50 ドル / 100万トークン、入力画像は 1.20 ドル / 100万トークン、出力テキストと思考過程は 3.00 ドル / 100万トークン、出力画像は 45.45 ドル / 100万トークンです。
1枚の画像に換算すると、テキストから画像生成(2048px)は約 0.0909 ドル、1枚の参照画像を伴う編集は約 0.0933 ドル、8枚の参照画像は約 0.1101 ドルとなります。
VentureBeat は、2K 解像度の企業用途において、Uni-1 のコストが Google Nano Banana 2 より10〜30%低いと報道しています。
背景
Luma Labs は以前は動画生成製品「Dream Machine(Ray3シリーズ)」が主な事業でしたが、今年の3月5日に Unified Intelligence アーキテクチャに基づく Luma Agents クリエイティブエージェントプラットフォームをリリースしました。Uni-1 はこのアーキテクチャが初めて静止画像製品に適用されたものです。
リリース後数時間で、関連する投稿はXプラットフォームで230万回以上の閲覧数を記録しました。Luma は今後動画および音声バージョンをリリースする予定であり、具体的な時期は未定です。
トライアルのURL:lumalabs.ai/uni-1
