Rhymes AI開源視頻生成模型Allegro：文本秒變高清視頻

近日，人工智能公司 Rhymes AI 正式開源其先進的文本生成視頻模型 Allegro。Allegro 允許用戶將簡單的文字描述轉換爲高質量的短視頻片段，爲人工智能生成視頻領域的創作者、開發者和研究人員開闢了新的可能性。

Allegro 可以根據用戶提供的文字提示生成6秒、15幀/秒、分辨率爲720p 的高質量視頻，涵蓋了各種電影主題，從人物和動物的特寫到各種場景的動作，幾乎可以實現任何基於文本描述的場景。

Allegro 的核心技術包括大規模視頻數據處理、將原始視頻壓縮爲視覺token以及擴展視頻擴散Transformer。

大規模視頻數據處理方面，Rhymes AI 設計了系統的數據處理和過濾管道，從原始數據中提取訓練視頻，並開發了一個結構化數據系統，對數據進行多維分類和聚類，以便於模型訓練和微調。

壓縮視頻爲視覺token方面，Allegro 使用視頻變分自動編碼器（VideoVAE）將原始視頻壓縮成更小的視覺token，在保留必要細節的同時，實現更流暢、更高效的視頻生成。VideoVAE 建立在預先訓練的圖像 VAE 之上，並擴展了時空建模層，有效地利用空間壓縮能力。

擴展視頻擴散Transformer方面，Allegro 的核心是其擴展的擴散Transformer架構，它應用擴散模型生成高分辨率視頻幀，確保視頻運動的質量和流暢性。Allegro 的主幹網絡建立在 DiT（擴散Transformer）架構之上，具有3D RoPE 位置嵌入和3D 全注意力機制。與使用UNet架構的傳統擴散模型相比，Transformer 結構更有利於模型擴展。通過利用3D 注意力機制，DiT 可以同時處理視頻幀的空間維度及其時間演化，從而對運動和上下文有更細緻的理解。

Rhymes AI 表示，Allegro 只是開始，團隊正在積極開發更先進的功能，包括圖像到視頻的生成、運動控制以及對更長、基於敘事的、故事板風格視頻生成的支持。

爲了使人工智能驅動的視頻創作更容易被更廣泛的用戶所接受，Rhymes AI 將 Allegro 的模型權重和代碼全部開源，並鼓勵社區探索、釋放創造力，並在此基礎上進行構建，以期在人工智能生成視頻技術方面取得協作性進展。

項目地址：https://github.com/rhymes-ai/Allegro

Grok支持純文本生成視頻了一句話即可生成帶音效視頻

xAI旗下Grok Imagine實現純文本生成短視頻，用戶輸入描述即可在17秒內獲得帶音效、動態鏡頭和專業畫質的6-15秒視頻，無需圖像輸入或編輯基礎。這一升級打通“想法到成片”環節，以高速優勢挑戰OpenAI Sora和Google Veo的市場地位。

Rhymes AI推出革命性文本圖像視頻生成模型Allegro-TI2V

Rhymes AI近日發佈了其革命性文本-圖像到視頻生成模型Allegro-TI2V，這一突破性技術爲數字內容創作開闢了全新的疆界。作爲生成式AI的最新進展，Allegro-TI2V爲創意工作者提供了前所未有的視覺敘事工具，標誌着AI技術在創意領域的巨大潛力。Allegro-TI2V在多個技術規格上表現卓越，支持高達79.2K的上下文長度，相當於88幀視頻。其輸出分辨率爲720×1280像素，視頻生成速度爲每秒15幀，用戶還可以選擇插值至30FPS，以滿足不同應用場景的需求。這款模型的架構非常複雜，包含了1.75億參數的VideoVAE和2

Rhymes AI發佈首款開源多模態AI模型Aria 性能超越GPT-4o mini等多家知名AI模型

最近，日本東京的初創公司 Rhymes AI 推出了他們的首款人工智能模型 ——Aria。該公司自稱，Aria 是全球首個開源的多模態混合專家（MoE）模型。這個模型不僅具有處理多種輸入模態的能力，還聲稱在能力上與一些知名的商業模型不相上下，甚至更勝一籌。Aria 的設計理念是希望能夠在文本、代碼、圖像和視頻等多種輸入形式上，提供卓越的理解和處理能力。與傳統的 Transformer 模型不同，MoE 模型通過多個專業的專家來替代其前饋層。當處理每個輸入令牌時，一個路由模塊會選擇一部分專家進

震撼來襲！Open-Sora Plan v1.2發佈，清晰度、推理速度起飛

Open-Sora Plan v1.2版本的發佈標誌着AI在理解物理世界和生成視頻能力上的重大突破。引入的3D全注意力架構使AI能從三維視角理解世界，顯著提升對物理環境的理解能力。文本生成視頻功能得到升級，生成的視頻畫面清晰度和內容連貫性均有所提高。新架構解決了空間與時間處理的難題，使生成的視頻在空間表現和時間流暢度上更佳。推理速度的大幅提升進一步增強了模型的效率。這一版本的發佈標誌着視頻生成模型進入新階段，不僅在技術上實現了飛躍，還通過開源策略促進了AI視頻生成技術的普及和發展。

Haiper2.0版本正式上線:新增模板功能，生成動作細節更流暢

日前，AI視頻生成器 Haiper AI正式上線其最新版本 ——Haiper2.0，新版本支持更犀利的動作、令人驚歎的視覺效果和動態模板，幫助用戶製作出令人驚豔的視頻。對比舊版，Haiper2.0進行了優化和升級，有兩個主要亮點:其一，具備了更加真實的運動效果和細節，其二，新增的易用模板讓視頻創建變得更加簡單。新增模板功能讓用戶只需簡單的選擇和點擊，用戶就能在幾分鐘內完成視頻製作。Haiper背後是一個擁有超過100億參數的強大 AI 模型，經過優化後可以在小型設備上高效運行，確保高質量輸