北大出品新3D場景生成框架HoloDreamer :文字描述生成完整3D場景

最近，來自北京大學和鵬城實驗室的研究團隊推出了一款名爲 HoloDreamer 的新型3D 場景生成框架，旨在通過用戶的文本描述生成身臨其境、完整的3D 場景。

這一框架包含兩個核心模塊:首先是 “風格化的等距全景生成”，能夠根據用戶的提示生成高質量的全景圖;其次是 “增強型兩階段全景重建”，通過3D 高斯噴塗技術快速重建全景，確保生成的場景視角一致。

項目入口：https://top.aibase.com/tool/holodreamer

在當前的虛擬現實、遊戲和影視行業中，3D 場景生成的需求越來越旺盛。藉助強大的文本到圖像擴散模型，利用簡單的文字描述生成3D 場景已成爲可能。這一突破性進展將推動文本驅動的3D 場景生成研究。

以往的方法往往採用擴展圖像的方式生成場景，這種方法容易導致場景的一致性和完整性不足。HoloDreamer 則通過生成高清全景圖作爲整個3D 場景的基礎初始化，隨後利用3D 高斯噴塗技術快速重建3D 場景，從而生成視角一致、完整的3D 場景。

具體來說，該框架的 “風格化的等距全景生成” 模塊結合多種擴散模型，可以根據複雜的文本提示生成具有風格化和細節化的全景圖。同時，該框架還採用了循環混合技術，避免了在全景旋轉時出現的裂縫。接着，團隊推出的 “增強型兩階段全景重建” 模塊則進行深度估計，並將 RGBD 數據投影，以獲取點雲信息。

通過在不同場景下準備兩種類型的攝像機，研究團隊能夠在3D 高斯噴塗優化的不同階段進行圖像集的監督，從而優化最終重建的場景。

經過全面實驗，HoloDreamer 在視覺一致性、和諧性以及重建質量和渲染魯棒性方面均超越了以往的研究成果。這一創新性的框架有望在未來的各類應用中發揮重要作用，帶來更加豐富的3D 場景體驗。

劃重點:
🌟 HoloDreamer 是一個新型的3D 場景生成框架，通過文本描述生成完整的3D 場景。
🖼️ 框架包括兩個模塊:風格化全景生成和增強型全景重建，確保生成結果的高質量和一致性。
🚀 HoloDreamer 在實驗中表現優異，超越了之前的3D 生成方法，爲虛擬現實和遊戲等領域提供了新的解決方案。

北京人工智能領域發展迅猛，上半年大模型數量佔全國四成以上

北京市近日召開上半年經濟形勢和政策解讀新聞發佈會，會上披露了該市在人工智能領域取得的顯著成就。據悉，2024年上半年，北京市在人工智能領域實現重大突破，全市累計上線大模型71款，佔全國總量超過四成，彰顯了北京在人工智能技術發展中的領先地位。

愛詩科技AIsphere發佈視頻生成產品PixVerse V2：單片段可達8秒多片段可達40秒

愛詩科技發佈PixVerse V2，一款基於AI的視頻生成工具，旨在釋放用戶創意。該產品採用Diffusion+Transformer架構，具有時空注意力機制，能精準理解並生成多模態信息，支持高效訓練與優化。主要特點包括：提升空間與時間感知，精準對齊文本信息，生成流暢一致的視頻片段（單個可達8秒，多段40秒），用戶友好，支持一鍵生成連續視頻內容並二次編輯。未來3個月內，愛詩科技將進行多次迭代升級，目標是使AI視頻創作更爲便捷高效，適用於日常記錄與故事講述。

OpenBuddy開源大語言模型團隊發佈Llama3.1-8B模型中文版

Meta推出了Llama3.1開源模型系列，包含405B參數版本，性能媲美GPT-4。其中，8B參數版本Llama3.1-8B-Instruct支持多國語言，上下文長度達131072tokens，通過2500萬條合成數據訓練，展現出與GPT3.5Turbo相似的認知和推理能力。OpenBuddy基於此模型，發佈支持中文問答和跨語言翻譯的OpenBuddy-Llama3.1-8B-v22.1-131K，儘管在中文知識特別是傳統文化方面有限，但長文理解能力相對穩定。未來計劃對更大模型進行更大規模訓練，以增強中文知識和認知能力。

Mistral AI發佈大型語言模型Mistral Large 2 接近Llama 405B

Mistral AI近日宣佈推出其最新一代大型語言模型Mistral Large2，這一模型在成本效益、速度和性能方面都取得了顯著突破。Mistral Large2是一個擁有1230億參數的模型，具有128K的上下文窗口。它支持包括英語、法語、德語、西班牙語、意大利語、葡萄牙語、阿拉伯語、印地語、俄語、中文、日語和韓語在內的數十種語言，以及Python、Java、C、C++、JavaScript和Bash等80多種編程語言。

騰訊智影PC端推出“智能畫布”功能支持再創作、摳圖、消除、擴圖等

騰訊智影PC端新推出的“智能畫布”功能，整合AI繪畫技術，爲用戶提供了包括智能摳圖、消除、擴圖、局部重繪、圖片裁剪、高清翻新等在內的多種實用圖片編輯工具。用戶通過智影首頁的“智影小工具”即可訪問“智能畫布”，支持自定義畫布尺寸，上傳圖片進行編輯，包括添加文字、使用素材貼紙，以及直接在畫布上進行AI創作。此外，該功能還具備AI繪畫的文生圖和圖生圖功能，以及圖片AI調整功能如智能摳圖、智能消除、智能擴圖和局部重繪，爲用戶提供從創意到編輯的全方位支持，適合各種創意和專業需求。用戶現可登錄智影首頁，體驗這些創新功能。

北大出品新3D場景生成框架HoloDreamer :文字描述生成完整3D場景

相關推薦

北京人工智能領域發展迅猛，上半年大模型數量佔全國四成以上

愛詩科技AIsphere發佈視頻生成產品PixVerse V2：單片段可達8秒 多片段可達40秒

OpenBuddy開源大語言模型團隊發佈Llama3.1-8B模型中文版

Mistral AI發佈大型語言模型Mistral Large 2 接近Llama 405B

騰訊智影PC端推出“智能畫布”功能 支持再創作、摳圖、消除、擴圖等

愛詩科技AIsphere發佈視頻生成產品PixVerse V2：單片段可達8秒多片段可達40秒

騰訊智影PC端推出“智能畫布”功能支持再創作、摳圖、消除、擴圖等