機器人領域迎來重大突破!星動紀元近日發佈了其自主研發的端到端原生機器人大模型ERA-42,並將其與自研的五指靈巧手星動XHAND1相結合,首次實現了僅憑一個具身大模型,即可驅動靈巧手完成超過100項複雜精細的操作任務。這其中包括拿起螺釘並用鑽緊固、用錘子敲打釘子、扶正水杯並倒水等高難度動作,標誌着機器人智能化水平邁上了一個新臺階。
機器人迎來“大腦升級”!星動紀元發佈原生大模型ERA-42,靈巧操作超百項

機器人領域迎來重大突破!星動紀元近日發佈了其自主研發的端到端原生機器人大模型ERA-42,並將其與自研的五指靈巧手星動XHAND1相結合,首次實現了僅憑一個具身大模型,即可驅動靈巧手完成超過100項複雜精細的操作任務。這其中包括拿起螺釘並用鑽緊固、用錘子敲打釘子、扶正水杯並倒水等高難度動作,標誌着機器人智能化水平邁上了一個新臺階。
隨着對話式AI技術的飛速發展,AI語音代理正在逐漸接管越來越多的電話溝通。然而,如何確保這些AI語音代理的可靠性成爲了行業面臨的一大挑戰。近日,專注於AI語音代理可靠性的平臺Hamming.ai宣佈完成380萬美元的種子輪融資,由Mischief領投,Y Combinator、AI Grant等機構以及多位天使投資人跟投。Hamming.ai的出現,正是爲了解決目前AI語音代理測試和管理方面的痛點。據瞭解,每天都有數十億通電話產生,而隨着AI的進步,大部分電話最終將由AI處理。然而,即使是微小的提示或模型提供商的更
近年來,隨着人工智能和計算機視覺技術的迅猛發展,人與計算機之間的交互變得越來越生動和富有表現力。尤其是在動畫製作領域,如何實現基於靜態圖像生成動態視頻一直是研究的熱點。近日,一項名爲 “DisPose” 的新技術應運而生,它通過解耦姿態指導,實現了更加可控的人物圖像動畫效果。簡單的說,DisPose實現了輸入動作視頻和參考人物,可以讓參考人物實現視頻裏的動作。DisPose 技術的核心在於其對傳統稀疏姿態信息的重構與利用。傳統方法多依賴於稀疏的骨骼姿態指導,這在
近年來,從語音助手到自動駕駛技術,AI已深入到生活的方方面面。然而,AI技術的廣泛應用也帶來了一些潛在的風險,其中深度僞造技術引發了社會關注。深度僞造技術利用算法生成高度逼真的虛假內容,通過學習大量真實數據,生成與人物或場景極爲相似的視頻或圖像。儘管這一技術展示了AI的強大,但也滋生了欺詐行爲。例如,近期出現了冒用張文宏醫生形象和聲音進行直播帶貨的事件。僞造視頻中,合成人像宣稱某產品,致使超過1200件商品售出。此事引發張文宏醫生和社會公衆的強
隨着人工智能的不斷進步,創新與可持續發展之間的平衡成爲了一項重要挑戰。最近,OpenAI 推出了其最新的 AI 模型 o3,這是迄今爲止最強大的模型。然而,除了運行這些模型的成本外,其對環境的影響也引起了廣泛關注。一項研究顯示,每個 o3任務大約消耗1,785千瓦時的電能,這相當於一個美國普通家庭在兩個月內的用電量。根據 Salesforce 的 AI 可持續發展負責人 Boris Gamazaychikov 的分析,這一電能消耗大約對應684千克的二氧化碳當量排放,這與五箱滿油的汽油的碳排放量相當。o3的高計算
用一段簡單的哼唱、一段節奏的敲擊,就能讓AI生成一段高品質的音樂或音效,這不再是幻想。一項名爲Sketch2Sound的創新研究成果,展示了一種全新的AI模型,它可以通過聲音模仿和文本提示來生成高質量的音頻,爲聲音創作領域帶來了革命性的突破。Sketch2Sound的核心技術在於,它能夠從任何聲音模仿(如人聲模仿或參考聲音)中提取出三個關鍵的、隨時間變化的控制信號:響度、亮度(頻譜質心)和音高。這些控制信號被編碼後,會被添加到用於文本到聲音生成的潛在擴散模型中,從而引導A
Meta公司AI研究負責人Yann LeCun近日在接受採訪時表示,當前的AI系統並不如一些研究人員所宣傳的那樣強大。他指出,人工智能的真正理解、規劃和推理能力依然不足,需要多次“概念性突破”才能實現類人智能。圖源備註:圖片由AI生成,圖片授權服務商MidjourneyLeCun批評OpenAI和Google DeepMind對AI的樂觀態度過於誇大,認爲人類智能AI在未來5年內顯然不可能實現。LeCun提到,當前的AI更多依賴文本訓練,但這種方式獲取的信息十分有限。他提出,下一代AI系統需要具備情感能力,以便更好地設定目