相關推薦
NotebookLM集成Nano Banana,可用於視頻生成配圖
谷歌NotebookLM集成Nano Banana圖像生成模型,實現從文本處理到多模態創作的升級,用戶可將筆記轉化爲視頻,提升學習與創作效率。本週起向Pro用戶逐步推送,預計數週內全面覆蓋。
阿里通義千問開源全新文生圖模型Qwen-Image
通義千問系列首次開源了一款名爲Qwen-Image的20億參數多模態擴散變換器(MMDiT)圖像生成基礎模型。這一創新成果不僅在複雜文本渲染和精確圖像編輯方面取得了突破性進展,更是在多個公開基準測試中展現了卓越性能,成爲圖像生成與編輯領域的新星。 Qwen-Image以其強大的文本渲染能力脫穎而出,支持多行佈局、段落級文本生成及細粒度細節呈現,無論是英語還是中文,均能實現高保真輸出。例如,在渲染宮崎駿風格的動漫場景時,模型能夠精準呈現店鋪牌匾、人物姿勢及神態,甚至酒缸上的細小文字也清晰可見。同樣,在中文對聯的渲染中,Qwen-Image不僅準確繪
混元開源新方案 MixGRPO:訓練效率大幅提升,性能反而更強
騰訊混元團隊推出圖像生成新框架MixGRPO,通過結合SDE和ODE創新採樣策略,將訓練時間縮短50%,其變體MixGRPO-Flash更降低71%。該框架優化MDP過程,限制智能體探索範圍,在保持性能的同時顯著提升效率。研究採用滑動窗口策略聚焦關鍵去噪步驟,並引入高階求解器加速採樣,使圖像生成質量和多樣性均有提升。相關代碼已開源。
通義千問發佈多模態統一理解與生成模型Qwen VLo
近日,Qwen VLo多模態大模型正式發佈,該模型在圖像內容理解與生成方面取得了顯著進展,爲用戶帶來了全新的視覺創作體驗。 據介紹,Qwen VLo在繼承原有Qwen-VL系列模型優勢的基礎上,進行了全面升級。該模型不僅能夠精準“看懂”世界,更能基於理解進行高質量的再創造,真正實現了從感知到生成的跨越。用戶現在可以在Qwen Chat(chat.qwen.ai)平臺上直接體驗這一新模型。
谷歌推出Offerwall工具:幫助出版商應對AI搜索衝擊,測試顯示收入提升9%
AIbase報道 — 功能特性與應用場景Offerwall允許出版商爲網站讀者提供多種內容訪問方式,包括小額支付、參與調查、觀看廣告等選項。出版商還可添加自定義選項,如訂閱新聞通訊等。該工具現已在Google Ad Manager中免費提供,並由AI智能決定何時向訪客展示,以最大化參與度和收益。經過超過一年的測試,已有1000家出版商參與試用。谷歌與第三方合作伙伴Supertab合作,支持用戶通過小額支付獲得24小時、數天或一週的內容訪問權限。變現效果與數據表現測試數據顯示,Offerwall在幫助出版商增
