正文

告別平面！MIDI：可提取圖片元素生成360度3D場景

發布於AI新閒資訊

時間 :Mar 12, 2025

閱讀 :1分鐘

還在對着二維照片裏的美好場景望眼欲穿?夢想着能身臨其境地漫步在那些迷人畫面之中?現在，這個願望有望成爲現實!來自CVPR2025的重磅研究——MIDI（Multi-Instance Diffusion for Single Image to3D Scene Generation，多實例擴散單圖到3D場景生成）橫空出世，它就像一位技藝高超的魔法師，僅憑一張普通的2D圖片，就能爲你構建出一個栩栩如生的360度3D場景。

一圖勝千言?現在還能“變”出整個世界!

想象一下，你拍攝了一張陽光灑落的咖啡館一角，照片裏有精緻的桌椅、香氣四溢的咖啡杯，以及窗外婆娑的樹影。過去，這僅僅是一張靜態的平面圖像。但有了MIDI，你只需將這張照片“喂”給它，接下來發生的事情簡直可以稱得上是“點石成金”。

MIDI的工作原理相當聰明。首先，它會對輸入的單張圖像進行智能分割，就像一位經驗老道的藝術家，能夠準確地識別出場景中的各種獨立元素，比如桌子、椅子、咖啡杯等等。這些被“拆解”開來的圖像局部，連同整體的場景環境信息，都會成爲MIDI進行3D場景構建的重要依據。

多實例同步擴散，告別“單打獨鬥”的3D建模

與其他一些逐個生成3D物體再進行組合的方法不同，MIDI採用了一種更爲高效且智能的方式——多實例同步擴散。這意味着它能夠同時對場景中的多個物體進行3D建模，這就像一個樂團同時演奏不同的樂器，最終匯聚成和諧的樂章。

更令人稱奇的是，MIDI還引入了一種新穎的多實例注意力機制。這個機制就像是場景中不同物體之間的“對話”，它能夠有效地捕捉物體之間的相互作用和空間關係，確保生成的3D場景不僅包含獨立的物體，更重要的是它們之間的擺放位置和相互影響都符合邏輯，渾然一體。這種直接在生成過程中考慮物體間關係的能力，避免了傳統方法中複雜的後處理步驟，大大提高了效率和真實感。

細節控和效率黨的福音

一步到位，快速生成:MIDI無需複雜的多階段處理，就能直接從單張圖像生成可組合的3D實例。據稱，整個處理過程最快僅需40秒，這對於追求效率的用戶來說絕對是一大福音。
全局感知，細節豐富:通過引入多實例注意力層和交叉注意力層，MIDI能夠充分理解全局場景的上下文信息，並將其融入到每個獨立3D物體的生成過程中，從而保證了場景的整體協調性和細節的豐富度。
有限數據，強大泛化:MIDI在訓練過程中，巧妙地利用有限的場景級別數據來監督3D實例之間的交互，同時融入了大量的單物體數據進行正則化，這使得它在保持良好泛化能力的同時，也能夠準確地生成符合場景邏輯的3D模型。
紋理精細，效果逼真:值得一提的是，MIDI生成的3D場景的紋理細節也毫不遜色，這得益於MV-Adapter等技術的應用，讓最終的3D場景看起來更加真實可信。

可以預見，MIDI這項技術的出現，將在諸多領域掀起一股新的浪潮。無論是遊戲開發、虛擬現實、室內設計，還是文物數字化保護，MIDI都將提供一種全新的、高效且便捷的3D內容生產方式。想象一下，未來的我們或許只需要拍攝一張照片，就能快速構建出一個可交互的3D環境，實現真正的“一鍵穿越”。

項目入口：https://huanngzh.github.io/MIDI-Page/

騰訊宣佈混元3D 2.1大模型對外開源

在計算機視覺領域頂會之一CVPR2025上，騰訊宣佈混元3D2.1大模型對外開源，此爲首個全鏈路開源的工業級3D生成大模型，在行業內處於領先地位。混元3D模型在知名開源社區和技術平臺Hugging Face的下載量已超180萬，開源效果獲全球開發者認可。此次升級的混元3D2.1模型在效果上有顯著提升，上傳首飾盒圖片後，生成的3D首飾盒紋理清晰、質感細膩、光影一致。在遊戲、電影、線上商城等領域，新模型可生成3D版角色、道具、產品模型。

Jun 16, 2025

320.5k

Krea發佈全新工具Krea Stage：從圖片到3D場景：一鍵構建沉浸式世界

在人工智能技術持續突破的浪潮中，Krea再度以創新之姿引領行業。4月10日，Krea正式發佈全新工具Krea Stage，爲3D場景創作和視頻生成帶來革命性體驗。這一工具以其強大的AI能力，讓用戶能夠從單一圖片生成可編輯的3D場景，並確保跨媒介內容的一致性，爲創作者提供了前所未有的靈活性和效率。以下是AIbase對這一前沿技術的深度解讀。從圖片到3D場景：一鍵構建沉浸式世界Krea Stage的核心亮點在於其從2D到3D的智能轉換能力。用戶只需上傳一張圖片，Krea Stage即可利用AI算法快速生成一個完整的

Apr 11, 2025

259.5k

崑崙萬維發佈Matrix-Zero世界模型：國內首創3D場景與可交互視頻生成

崑崙萬維今日宣佈正式推出其Matrix-Zero世界模型，成爲國內首家同時具備3D場景生成和可交互視頻生成能力的人工智能企業，標誌着其在空間智能領域邁出了重要一步。Matrix-Zero的核心亮點在於其強大的3D場景生成功能。該功能可以將用戶輸入的圖片轉化爲具有全局一致性、可自由探索的真實3D場景。這一突破性技術具備以下幾個關鍵特性:全局一致性: Matrix-Zero生成的3D場景具有高度的全局一致性。例如，輸入一張“城堡花園一角”的圖片，模型可以生成一個360度環視後場景保持不變的3D環境，

Feb 14, 2025

367.3k

單圖秒變3D奇境：Wonderland可高效構建高質量3D場景

長期以來，如何僅憑單張圖像高效生成高質量、廣闊視角的3D場景一直是研究人員面臨的挑戰。傳統方法往往依賴多視角數據，或需要耗時的逐場景優化，並且在背景質量和未見區域的重建上存在不足。現有技術在處理單視圖3D場景生成時，常因信息不足而導致遮擋區域的錯誤或扭曲，背景模糊，以及難以推斷未見區域的幾何結構。而基於迴歸的模型雖然可以前饋方式進行新視角合成，但它們在處理複雜場景時面臨巨大的內存和計算壓力，因此大多侷限於物體級別的生成或窄視角場景。爲了

Jan 7, 2025

203.3k

報道稱Meta開始測試用於AI 訓練自研芯片，降低對Nvidia的依賴

Meta 公司近期傳出消息，正在測試一款自家研發的芯片，專門用於 AI 系統的訓練。這項舉措是 Meta 戰略的一部分，旨在減少對硬件製造商，如 Nvidia 的依賴。據路透社報道，這款芯片是與臺灣半導體制造公司（TSMC）合作生產的，專門針對 AI 特定的工作負載進行設計。目前，Meta 正在進行小規模的測試部署，如果測試成功，計劃將生產規模擴大。圖源備註：圖片由AI生成，圖片授權服務商Midjourney過去，Meta 也曾推出過定製的 AI 芯片，但那些芯片主要用於運行模型，而非訓練模型。據瞭解，Me

Mar 12, 2025

184.4k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご