斯坦福最新黑科技！場景語言：一句話生成3D大片！

還記得科幻電影裏那些酷炫的3D場景嗎?浩瀚宇宙、奇幻城堡、未來都市... 現在，你也可以輕鬆創建這樣的場景了!斯坦福大學吳佳俊團隊最新推出的**“場景語言”**技術，讓你只需用一句話描述場景，就能自動生成栩栩如生的3D模型，簡直是設計師和遊戲開發者的福音!

場景語言到底是什麼?

想象一下，你要描述復活節島上神祕的阿胡阿基維巨石像。你會說:“那裏有一排七尊摩艾石像，面朝同一個方向。” 但如果對方不知道摩艾石像是什麼，你還要解釋:“摩艾石像是沒有腿的石制人像，但每尊看起來都略有不同。”

這個例子告訴我們，想要完整地描述一個場景，至少需要三種信息:

結構信息:比如“一排七尊石像”，可以用類似編程語言的程序來描述;

類別語義:比如“摩艾石像”，可以用文字來概括;

實例細節:比如每尊石像的具體形狀、顏色、紋理，這些難以用語言描述，但可以通過圖像識別。

場景語言正是將這三種信息完美融合! 它包含三個核心要素:

程序:用類似編程語言的語法來定義場景中物體的層級關係和空間佈局，例如摩艾石像的排列方式;

文字:用自然語言描述每個物體的類別語義，例如“摩艾石像”;

嵌入向量:用神經網絡生成的向量來捕捉每個物體的視覺特徵，例如每尊石像的獨特外觀。

最神奇的是，場景語言可以通過預訓練的語言模型自動生成! 你只需要輸入一段文字描述或一張圖片，模型就能自動推斷出程序、文字和嵌入向量，然後用各種渲染器生成高質量的3D場景。

場景語言的優勢在哪?

與傳統的場景圖表示相比，場景語言能夠生成更復雜、更逼真的場景，並且可以精確控制和編輯場景結構。例如，你可以用一句話指令修改場景中某個物體的屬性，或者添加新的物體，甚至改變整個場景的風格。

場景語言有哪些應用?

場景語言在3D場景生成和編輯領域有着廣泛的應用前景，例如:

文本生成3D場景:輸入一段文字描述，就能自動生成對應的3D場景，比如“一座山頂的城堡，周圍環繞着茂密的森林”;

圖片生成3D場景:輸入一張照片，就能重建出照片中的3D場景，例如根據一張客廳照片生成3D客廳模型;

4D場景生成:可以生成包含時間維度信息的4D場景，例如模擬風力渦輪機的旋轉;

場景編輯:通過修改場景語言的程序、文字或嵌入向量，可以對場景進行精確的編輯，例如改變物體的顏色、位置或大小。

場景語言的未來發展方向?

場景語言還處於早期發展階段，未來還有很多發展空間，例如:

更強大的生成能力:可以生成更復雜、更逼真的場景，例如包含更多細節和更豐富的交互元素;

更便捷的編輯方式:可以使用更自然、更直觀的語言來編輯場景，例如用語音或手勢控制;

更廣泛的應用領域:可以應用於虛擬現實、增強現實、遊戲開發、電影製作等更多領域。

項目主頁:https://ai.stanford.edu/~yzzhang/projects/scene-language/

論文地址:https://arxiv.org/abs/2410.16770

微軟開源 TRELLIS.2：一鍵將圖片轉爲高精度 3D 模型