Luma AI 發佈 Uni-1 圖像模型，採用自迴歸架構同步生成文本與像素

Luma Labs 於 3 月 23 日發佈圖像生成模型 Uni-1，這是該公司基於 Unified Intelligence 架構推出的首款公開模型。官網已開放免費試用，API 定價同步公佈，企業接入通道將逐步上線。

架構變化：從擴散模型到自迴歸

Uni-1 放棄了當前主流的擴散模型路線，轉而使用 decoder-only 自迴歸 Transformer，將文本 token 與圖像 token 交錯排列成單一序列，在同一個前向傳播中完成推理和像素生成。

Luma CEO Amit Jain 解釋，傳統方案通常是先用語言模型規劃、再交給擴散模型生成，兩個階段之間存在信息損耗。Uni-1 的設計目標是消除這個斷層。

Jain 此前任職 Apple，參與過 Vision Pro 工程工作。

功能：參考圖控制與跨風格生成

Uni-1 支持單張或多張參考圖引導生成，可保留人物身份、姿勢和構圖。官方測試顯示，在處理角色一致性和人像控制時，多參考圖模式表現穩定。

模型聲稱支持 76 種視覺風格，覆蓋寫實攝影、漫畫、浮世繪等類別。

演示中有一個場景：輸入"畫一張金門大橋信息圖"，模型自動規劃佈局，生成橋樑結構圖並標註"1711 Meters"等數據，內部推理過程實時可見。

基準測試：空間推理與參考生成領先

Luma 公佈的數據顯示，Uni-1 在 RISEBench 推理基準上總分 0.51，高於 Google Nano Banana 2 的 0.50 和 OpenAI GPT Image 1.5 的 0.46；空間推理單項 0.58，邏輯推理 0.32，後者約爲 GPT Image 的兩倍。

ODinW-13 物體檢測得分 46.2 mAP，接近 Google Gemini 3 Pro 的 46.3。

人類偏好 Elo 排名方面，Uni-1 在整體偏好、風格與編輯、參考生成三項排名第一，文生圖單項排名第二。

定價

API 按 token 計費：輸入文本 $0.50/百萬 token，輸入圖像 $1.20/百萬 token，輸出文本與思考鏈 $3.00/百萬 token，輸出圖像 $45.45/百萬 token。

換算爲單張圖像：文生圖（2048px）約 $0.0909，帶單張參考圖的編輯約 $0.0933， 8 張參考圖約 $0.1101。

VentureBeat 報道稱，在 2K 分辨率企業場景下，Uni-1 成本比 Google Nano Banana 2 低 10% 至 30%。

背景

Luma Labs 此前以視頻生成產品 Dream Machine（Ray3 系列）爲主要業務，今年 3 月 5 日發佈了基於 Unified Intelligence 架構的 Luma Agents 創意代理平臺。Uni-1 是該架構首次在靜態圖像產品上落地。

發佈數小時內，相關帖子在 X 平臺獲得超過 230 萬次瀏覽。Luma 表示後續將推出視頻和音頻版本，具體時間未公佈。

試用地址：lumalabs.ai/uni-1

Luma Labs 發佈 Modify Video：AI視頻後期一鍵改風格、換場景

Luma Labs 正式推出其全新視頻編輯工具 Modify Video，通過人工智能技術爲視頻後期創作帶來革命性突破。這一工具基於 Luma AI 的 Dream Machine 平臺和 Ray2模型，支持用戶在拍攝後對視頻進行風格重塑、場景替換、角色調整等深度編輯，極大地降低了傳統視頻製作的複雜性和成本。以下是 AIbase 對這一重磅更新的詳細報道。Modify Video:重新定義視頻後期創作Luma Labs 的 Modify Video 工具允許用戶上傳已有視頻，並通過簡單的文本提示對視頻內容進行深度改造。無論是調整角色的外貌與動作、改變視頻的整

玩法升級！Runway Gen-3 Alpha圖生視頻新增首尾幀功能

Runway公司在AI生成視頻技術領域取得了重要突破，其Gen-3Alpha圖像到視頻工具新增功能允許用戶將特定圖像作爲視頻的首尾幀，顯著提高了電影製作人、市場營銷人員和內容創作者的藝術控制能力。這一功能解決了AI視頻創作中的關鍵挑戰——一致性和可預測性，增強了用戶對AI生成內容的可控性。此發展使Runway在與Luma Labs、Pika等競爭對手的競爭中處於有利地位，特別是考慮到其公共可用性與仍在封閉測試階段的Sora相比。通過允許用戶指定起始和結束點，Runway爲AI生成視頻過程引入了“敘事橋”，可能導致更連貫和有目的的輸出。這一進步對於商業應用尤其有價值，尤其是在確保品牌一致性方面。隨着Runway計劃通過40億美元的估值籌集4.5億美元，由風投公司General Atlantic領投，該公司的資源將得以擴大，以繼續其快速發展週期並保持行業領先地位。這一技術不僅改變了內容創作方式，還可能重塑電影製作、教育等領域，成爲數字創造力新領域的領導者。

Luma AI 發佈 Uni-1 圖像模型，採用自迴歸架構同步生成文本與像素

相關推薦

Luma Labs 發佈 Modify Video：AI視頻後期一鍵改風格、換場景

玩法升級！Runway Gen-3 Alpha圖生視頻新增首尾幀功能

4000 億參數“生啃”成功！iPhone 17 Pro 挑戰本地運行超大模型，但速度只有 0.6 token

你的 Mac 多了一個“AI 數字打工人”，Claude 測試接管電腦操作

ChatGPT 變身“雲網盤”：付費用戶迎來 Library 功能，文檔圖片跨對話調用