字節跳動近日推出了一款名爲Phantom的創新視頻生成工具,該工具基於參考主體進行視頻生成,在主體一致性方面表現出色,引發業界廣泛關注。
字節跳動推出Phantom視頻生成工具:主體一致性表現卓越


字節跳動近日推出了一款名爲Phantom的創新視頻生成工具,該工具基於參考主體進行視頻生成,在主體一致性方面表現出色,引發業界廣泛關注。
中科大與字節跳動聯合推出端到端長視頻生成模型,能直接生成分鐘級、480p分辨率、24fps的高質量視頻,支持多鏡頭切換。核心創新是底層算法MoGA,這是一種全新注意力機制,專攻長視頻生成難題,標誌着國產視頻生成技術實現關鍵突破。
近日,生數科技正式宣佈 Vidu Q2參考生視頻大模型 API 全面開放接入,這一舉措標誌着 AI 視頻生成技術從“可用”邁向“精工”的關鍵躍遷。Vidu Q2在保持超高一致性方面展現出了獨特價值,尤其在廣告、商品展示等領域,不僅能夠精準還原產品細節,還能爲 AI 視頻注入情感表現力,從而提升品牌好感與用戶轉化。 Vidu Q2的發佈爲互動娛樂、動漫、廣告電商行業帶來了全新的武器。其首創的“創意特效引擎”爲這些行業提供了引爆節日流量、制勝全球市場的新手段。Vidu Q2不僅在視頻生成的真實感上樹立了新標杆,還通過細微表情生成技術爲數字角色注入真實情感,讓 AI 視頻迎來全新
字節跳動AI助手Cici在海外市場表現亮眼,墨西哥谷歌商店下載量居首,英國蘋果商店進入前十。該應用與國內豆包同期推出,採用雙品牌出海策略,開發者身份雖未公開標註,但字節跳動已向《福布斯》確認。
近日,多模態 AI 領域的先鋒企業生數科技宣佈成功完成數億元人民幣的 A 輪融資。這輪融資由博華資本領投,老股東百度戰投、北京市人工智能產業投資基金等多個投資方繼續跟進,顯示出市場對生數科技的高度認可。公司計劃利用這筆資金進一步推動模型研發和技術創新,探索多模態大模型的潛力,進而加速產品拓展和用戶服務。多模態技術,尤其是視頻生成領域,正處於快速發展的階段。生數科技的融資負責人表示,預計在未來三年內,多模態生成將改變全球數字內容的生產方式,逐
近日,字節跳動與香港大學聯合推出了一款全新的開源視覺推理模型 ——Mini-o3,標誌着多輪視覺推理技術的又一重大突破。與以往只能進行1-2輪對話的視覺語言模型(VLM)不同,Mini-o3在訓練時限制了對話輪數爲6輪,但在測試階段卻能將推理輪數擴展至數十輪,極大提升了視覺問題處理的能力。Mini-o3的強大之處在於其在高難度視覺搜索任務中實現了深度推理,達到當前技術的頂尖水平。這得益於該模型的三個核心設計要素。首先,研究團隊構建了一個名爲 VisualProbe 的視覺探測數據集,包