輸入一句話，輸出一套樂高設計!CMU 開源 LegoGPT AI 項目

卡內基梅隆大學研究團隊發佈一項創新性人工智能項目——LegoGPT，該模型可根據自然語言文本自動生成可拼搭的樂高積木設計。項目已在 GitHub 開源，用戶可自由下載模型與數據集進行嘗試和拓展。

LegoGPT 由自迴歸大型語言模型驅動，訓練數據包括超過47，000塊樂高積木組成的28，000多個獨特3D 對象。用戶只需輸入如“一個吉他造型”這樣的文本提示，模型便能生成結構合理、可穩定搭建的樂高拼搭方案。

其核心亮點在於搭建過程中的“有效性檢查”與“物理感知回滾”機制，確保生成的積木佈局不會重疊或漂浮。同時，它也能生成可供人類或機器人按照說明搭建的結構化設計圖，並附帶文字註釋。

研究團隊還構建了名爲 StableText2Lego 的訓練數據集，利用 ShapeNetCore 網格和體素佈局生成初始形狀，再經過篩選與優化形成最終訓練樣本。未來，這項技術有望拓展爲圖像到樂高設計的完整流程，讓用戶通過上傳照片獲得創意拼搭方案。

地址：https://avalovelace1.github.io/LegoGPT/

蘋果放大招！FastVLM 讓視覺語言模型在 iPhone 上飛速 “狂飆”

蘋果最近又搞了個大新聞，偷偷摸摸地發佈了一個叫 FastVLM 的模型。聽名字可能有點懵，但簡單來說，這玩意兒就是讓你的 iPhone 瞬間擁有了“火眼金睛”，不僅能看懂圖片裏的各種複雜信息，還能像個段子手一樣跟你“貧嘴”!而且最厲害的是，它速度快到飛起，蘋果官方宣稱，首次給你“貧嘴”的速度比之前的一些模型快了足足85倍!這簡直是要逆天啊!

蘋果發佈FastVLM模型，可在iPhone上運行的極速視覺語言模型

蘋果正式發佈FastVLM，一款專爲高分辨率圖像處理優化的視覺語言模型（VLM），以其在iPhone等移動設備上的高效運行能力和卓越性能引發行業熱議。FastVLM通過創新的FastViTHD視覺編碼器，實現了高達85倍的編碼速度提升，爲實時多模態AI應用鋪平了道路。技術核心:FastViTHD編碼器與高效設計FastVLM的核心在於其全新設計的FastViTHD混合視覺編碼器，針對高分辨率圖像處理進行了深度優化。相較於傳統視覺變換器（ViT）編碼器，FastViTHD通過以下創新顯著提升效率:動態分辨率調整:通過多尺度特徵融合，

國內首個光子芯片專用大模型問世，南智光電引領智能研發新潮流

在光子芯片技術領域，中國又迎來了一個重要的里程碑。5月12日，南智光電正式發佈了國內首個光子芯片專用大模型 ——OptoChat AI。這一創新成果將顯著推動我國光子芯片的研發進程，標誌着研發方式的重大轉變。光子芯片作爲現代光電與微電子技術交匯的前沿技術，一直以來都面臨着研發效率低下的難題。南智光電的副總經理潘濤指出，傳統的研發模式往往依賴工程師查閱大量文獻或諮詢專家，費時又費力。而 OptoChat AI 的出現，正是爲了打破這一瓶頸。通過將 “人找知識” 的模式轉變

國內首個自研通用具身智能大模型 “自變量機器人” 完成數億元融資

近日，具身智能公司 “自變量機器人” 宣佈成功完成了 Pre-A+++ 輪和 A 輪兩輪融資，融資總額達到數億元。這一融資活動由華映資本和美團領投，標誌着該公司在推動通用具身智能技術的道路上邁出了重要一步。自變量機器人自2023年成立以來，已完成七輪融資，累計融資金額超過10億元。自變量機器人專注於研發全自研端到端的通用具身智能大模型，力求實現機器人在複雜環境中自主交互和高效執行任務的理想。該公司的核心技術依託真實世界數據，通過深度學習與機器人技術的結合，逐

NVIDIA AI推出Audio-SDS，革新音效生成與多任務音頻處理

NVIDIA AI研究團隊發佈了一項突破性技術——Audio-SDS，將Score Distillation Sampling（SDS）技術擴展至文本條件音頻擴散模型，顯著提升了音效生成、音源分離及多任務音頻處理的能力。這一創新成果已在學術界和工業界引發熱議。技術核心:SDS賦能音頻擴散模型Audio-SDS基於NVIDIA此前在圖像生成領域廣泛應用的SDS技術，通過將其適配到預訓練的音頻擴散模型，實現了從單一模型到多任務音頻處理的跨越。核心創新在於:通用性擴展:無需重新訓練，Audio-SDS可將任意預訓練音頻擴散模型轉化爲多功能工具