相關推薦
NotebookLM集成Nano Banana,可用於視頻生成配圖
谷歌NotebookLM集成Nano Banana圖像生成模型,實現從文本處理到多模態創作的升級,用戶可將筆記轉化爲視頻,提升學習與創作效率。本週起向Pro用戶逐步推送,預計數週內全面覆蓋。
阿里通義千問開源全新文生圖模型Qwen-Image
通義千問系列首次開源了一款名爲Qwen-Image的20億參數多模態擴散變換器(MMDiT)圖像生成基礎模型。這一創新成果不僅在複雜文本渲染和精確圖像編輯方面取得了突破性進展,更是在多個公開基準測試中展現了卓越性能,成爲圖像生成與編輯領域的新星。 Qwen-Image以其強大的文本渲染能力脫穎而出,支持多行佈局、段落級文本生成及細粒度細節呈現,無論是英語還是中文,均能實現高保真輸出。例如,在渲染宮崎駿風格的動漫場景時,模型能夠精準呈現店鋪牌匾、人物姿勢及神態,甚至酒缸上的細小文字也清晰可見。同樣,在中文對聯的渲染中,Qwen-Image不僅準確繪
混元開源新方案 MixGRPO:訓練效率大幅提升,性能反而更強
騰訊混元團隊推出圖像生成新框架MixGRPO,通過結合SDE和ODE創新採樣策略,將訓練時間縮短50%,其變體MixGRPO-Flash更降低71%。該框架優化MDP過程,限制智能體探索範圍,在保持性能的同時顯著提升效率。研究採用滑動窗口策略聚焦關鍵去噪步驟,並引入高階求解器加速採樣,使圖像生成質量和多樣性均有提升。相關代碼已開源。
通義千問發佈多模態統一理解與生成模型Qwen VLo
近日,Qwen VLo多模態大模型正式發佈,該模型在圖像內容理解與生成方面取得了顯著進展,爲用戶帶來了全新的視覺創作體驗。 據介紹,Qwen VLo在繼承原有Qwen-VL系列模型優勢的基礎上,進行了全面升級。該模型不僅能夠精準“看懂”世界,更能基於理解進行高質量的再創造,真正實現了從感知到生成的跨越。用戶現在可以在Qwen Chat(chat.qwen.ai)平臺上直接體驗這一新模型。
Imagen 4登陸Gemini!聊天秒變畫廊,AI圖像生成進入新紀元
Google旗下Gemini平臺迎來重磅更新,正式集成了最新的Imagen4圖像生成模型。這一升級讓用戶能夠在聊天對話中通過簡單提示直接生成高質量圖像,標誌着AI圖像生成技術邁向更直觀、更便捷的新階段。Imagen4加持:圖像生成質量飛躍Gemini平臺現已全面啓用Imagen4,這是Google最新一代的文本到圖像生成模型,相較於前代Imagen3實現了顯著提升。據官方介紹,Imagen4在以下方面表現尤爲出色: 細膩細節呈現:無論是複雜織物的褶邊、水滴的晶瑩質感,還是動物毛髮的逼真紋理,Imagen4都能以驚豔的清晰度呈