6B參數、16G顯存、 8 步出圖：阿里Z-Image把“百億大模型”拍在沙灘上

昨晚，一張1024×1024的霓虹漢服大片在RTX4090上只用2.3秒就渲完，顯存指針穩穩停在13GB——阿里通義實驗室丟出的Z-Image-Turbo讓圍觀羣衆瞬間安靜:參數只有6B，卻把20B+的閉源旗艦集體打平，甚至小勝。

沒有花哨口號，Z-Image直接用成績說話:

-8步採樣即可交付印刷級畫質，消費級顯卡30606G就能跑，16G顯存封頂;

- 超長嵌套中文咒語一次讀懂，從“夜晚的陽光”到“左手奶茶右手手機屏顯今日新聞”自動糾偏，中英文字母不再鬼畫符;

- 皮膚毛孔、玻璃反射、雨霧逆光、電影景深通通在線，Elo人工偏好榜把Z-Image-Turbo擡進開源世界第一梯隊。

祕訣藏在全新S3-DiT架構:文本、視覺語義、圖像token被串成一條單流，參數量砍到對手的三分之一，推理效率卻拉滿。團隊還順手甩出Z-Image-Edit，一句自然語言就能讓原圖“換頭改景”，社區玩家即刻可玩。

阿里尚未官宣是否完全開源，但模型已上架ModelScope與Hugging Face，pull request已合併進diffusers主分支，pip一行命令就能加載。一旦企業版API價格放出，Midjourney、Flux們或許得提前思考降價表。

Z-Image的出現像一聲發令槍:圖像生成賽道正式邁入“輕量高質”時代，算力民主化不再是一句口號——誰家顯卡還沒16G?

項目地址：https://github.com/Tongyi-MAI/Z-Image

阿里通義實驗室推出新型數字人生成模型，音視頻合成更真實！

阿里通義實驗室近日發佈了一款名爲 “OmniTalker” 的新型數字人視頻生成大模型。這一創新模型的核心在於其能夠通過上傳一段參考視頻，實現對視頻中人物的表情、聲音和說話風格的精準模仿。相較於傳統的數字人制作流程，OmniTalker 顯著降低了製作成本，同時提升了生成內容的真實感和互動體驗，滿足了廣泛的應用需求。OmniTalker 的使用十分簡便，用戶只需在平臺上上傳一段參考視頻，就能生成與之同步的音頻和視頻內容。目前，該項目已在魔搭社區和 HuggingFace 等平臺開放體驗，並提

阿里通義團隊開源 R1-Omni：多模態模型實現音視頻信息透明化

在人工智能領域，阿里通義實驗室團隊近日宣佈開源其最新研發的多模態模型 ——R1-Omni。這一模型結合了強化學習與可驗證獎勵（RLVR）方法，展現出了在處理音頻和視頻信息方面的卓越能力。R1-Omni 的亮點在於其透明性，讓我們得以更清晰地理解各模態在決策過程中的作用，尤其是在情緒識別等任務中。隨着 DeepSeek R1的推出，強化學習在大模型的應用潛力被不斷挖掘。RLVR 方法爲多模態任務帶來了新的優化思路，能夠有效處理幾何推理、視覺計數等複雜任務。儘管目前的研究多集中於圖像

視頻訓練LoRA來了！Ostris 用 20 張照片打造驚豔 Wan 2.1 LoRA

2025年3月9日，美國加利福尼亞州——開源模型正讓文生視頻技術變得越來越有趣。AI 開發者 Ostris（@ostrisai）近日在 X 平臺上分享了他使用自家照片訓練的 Wan2.1LoRA 模型成果，僅憑約20張照片和一塊家用 RTX4090顯卡，便實現了令人驚歎的視頻生成效果。這一成果不僅展示了開源技術的潛力，也引發了 X 社區對視頻 LoRA 訓練工具的熱烈討論。Ostris 的驚豔實驗Ostris 在3月7日的 X 帖子中首次展示了 Wan2.114B LoRA 的訓練成果。他寫道:“Wan2.114B LoRA 訓練在24GB 上成功運行!在4090上以480p 分辨率平均每步1.7

顯卡市場硝煙再起：Nvidia RTX5070 發佈推遲，AMD或有後招

顯卡市場即將迎來新一輪的激烈競爭。Nvidia對其即將推出的RTX5070顯卡寄予厚望，聲稱其性能可媲美RTX4090，而售價僅爲549美元。然而，這一說法是否屬實，還有待市場檢驗。Nvidia最初計劃於2月發佈RTX5070，但根據其產品頁面今天最新透露的信息，發佈日期已推遲至3月5日。不過，Nvidia仍計劃在2月20日，即AMD預定活動的前一週，推出售價749美元的RTX5070Ti。目前，AMD已宣佈將於2月28日舉行一場流媒體活動，預計將展示Radeon RX9070和9070XT顯卡。AMD此前曾表示，其產品策略並非直接與Nvidia的頂級顯卡競

Nvidia RTX 5070: 549 美元就能實現 RTX 4090 性能？