卡內基梅隆大學研究團隊發佈一項創新性人工智能項目——LegoGPT,該模型可根據自然語言文本自動生成可拼搭的樂高積木設計。項目已在 GitHub 開源,用戶可自由下載模型與數據集進行嘗試和拓展。
LegoGPT 由自迴歸大型語言模型驅動,訓練數據包括超過47,000塊樂高積木組成的28,000多個獨特3D 對象。用戶只需輸入如“一個吉他造型”這樣的文本提示,模型便能生成結構合理、可穩定搭建的樂高拼搭方案。
其核心亮點在於搭建過程中的“有效性檢查”與“物理感知回滾”機制,確保生成的積木佈局不會重疊或漂浮。同時,它也能生成可供人類或機器人按照說明搭建的結構化設計圖,並附帶文字註釋。
研究團隊還構建了名爲 StableText2Lego 的訓練數據集,利用 ShapeNetCore 網格和體素佈局生成初始形狀,再經過篩選與優化形成最終訓練樣本。未來,這項技術有望拓展爲圖像到樂高設計的完整流程,讓用戶通過上傳照片獲得創意拼搭方案。
地址:https://avalovelace1.github.io/LegoGPT/