開“天眼”了！谷歌將Gemini 1.5 Pro安裝到機器人上實現記憶導航能力

在科技的江湖裏，Google DeepMind又扔出了一個重磅炸彈——他們把一個叫Gemini1.5Pro的系統裝到了機器人身上。這可不是普通的升級，這玩意兒讓機器人有了記憶導航的超能力，簡直就是給機器人開了個“天眼”。

想象一下，這個機器人在將近9000平方英尺的地盤上，能執行57種不同的任務，而且成功率達到了90%。這不是簡單的任務，比如找到畫畫的地方，機器人不僅聽懂了，還帶你找到了一塊大白板。這操作，簡直比真人還靠譜。

這個系統的厲害之處在於，它能夠處理多模態的長上下文窗口，這意味着機器人不僅能記住關鍵位置，還能理解人類的指令、視頻導覽，甚至用常識來推理。就像那個Google員工的例子，機器人不僅聽懂了“畫畫的地方”，還知道要找個有大白板的地方。

而且，這些機器人在之前的項目中已經熟悉了辦公室環境，它們通過“多模態指令導航演示”瞭解了空間佈局。DeepMind的團隊還用了一種分層視覺-語言-動作（VLA）技術，讓機器人能夠理解書面、繪圖命令和手勢指令。

這個系統的核心，是它能夠讓機器人在複雜的空間中自由行動，而且不需要人類時時刻刻的指導。它們能夠記住環境，理解指令，然後用自己的方式來完成任務。這種能力，讓機器人在實際應用中變得更加靈活和有用。

總之，Google DeepMind的這項技術，不僅僅是讓機器人變得更聰明，更是讓它們能夠在真實世界中更好地服務於人類。這就像是給機器人打開了一扇新的大門，讓它們能夠走進我們的生活，成爲我們工作和探索世界的夥伴。未來的機器人，或許就不再是冷冰冰的機器，而是我們生活中的智能夥伴。

美國參議院新AI相關法案：爲防AI抄襲侵權禁止非法移除數字水印

近年來，隨着人工智能技術的迅猛發展，內容創作者紛紛擔憂其作品可能遭到非法盜用，這一問題在全球範圍內引起了廣泛關注。爲了保護創作權益，美國參議院的兩黨議員團體提出了一項名爲“內容來源保護和深度僞造媒體完整性法案”(COPIED法案)，旨在簡化AI生成內容的驗證和檢測過程，以防止未經許可的使用。根據該法案，美國國家標準技術研究院（NIST）將負責制定相關的標準和指南，包括使用水印技術來證明內容的來源，並對AI工具提出要求，需允許用戶附加內容來源信息且禁止移除這些信息，同時避免對創意和新聞內容進行訓練。違反這一法案的公司將遭受內容所有者，如廣播公司、藝術家和報紙的訴訟。州檢察長和聯邦貿易委員會也有權執行聯邦法律。多行業組織，包括媒體和藝術家發聲支持了這一法案。法案首要聚焦保護基本權利，確保正確的供應鏈管理，旨在爲人工智能的全面發展建立一個倫理、公開且負責任的框架。

德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發

德國AI國防公司Helsing在C輪融資中獲得4.5億歐元，主要用於產品開發和研究，強化北約東部邊界防禦。General Catalyst領銜投資，其他投資者包括知名資本及Saab、Lightspeed等。資金將助力提速研發與戰略部署，針對歐洲安全形勢的關鍵需求。Helsing自2022年起與烏克蘭合作，通過技術合同助力國防升級與系統建設。該公司被視爲關鍵的德國AI企業，其發展獲得聯邦經濟資助許可。項目目標突出人工智能在軍事領域（如物流、偵察、網絡空間）的應用，尤其是在烏克蘭戰場上人工智助航偵察與通訊的重要作用。

騰訊AI實驗室的項目vta-ldm：輸入視頻生成對齊音頻

研究團隊騰訊人工智能實驗室推出的“隱含對齊視頻到音頻生成”模型VTA-LDM憑藉其創新的隱含對齊技術，有效實現了視頻與生成音頻的語義和時間一致性，大幅提升音頻生成質量，拓寬了視頻生成技術應用場景。實驗分析表明，結合視覺編碼器、輔助嵌入與數據增強的模型設計，顯著提高了生成音頻的準確性和一致性。團隊通過建立基礎模型，開展消融實驗，評估不同部分對生成效果的影響，證實了模型在質量與同步性上的卓越性能，達到技術前沿。通過簡單用戶操作：將視頻片段放入數據目錄並運行腳本，即可生成相應音頻，隨後工具幫助實現音頻與原始視頻合併，進一步提升應用便利性。VTA-LDM模型爲用戶提供多樣化模型選擇，涵蓋不同需求，顯著推動視頻到音頻生成領域技術發展與應用創新。

Anthropic宣佈Claude 3 Haiku支持微調

Anthropic現在在Amazon Bedrock中推出了其最新模型Claude3Haiku，開啓了客戶微調模型的途徑。這一創新功能讓使用者根據自身業務需求，個性化定製模型的知識與能力，以達到在特定任務上的最佳效果。微調技術通過精細調校模型，針對性地提升其在分類、與自定義API互動及解讀行業數據等特定領域的性能。使用Amazon Bedrock控制檯或API，用戶可對Claude3Haiku進行測試和優化，直至滿足所需性能目標並最終部署。微調Claude3Haiku不僅可提高在具體任務上的專業表現，顯著優於通用模型，而且還降低生產部署成本，加快結果返回速度，同時保證一致且符合品牌格式的輸出，滿足法律法規與內部協議需求。用戶無需深厚技術背景，即可實現高效創新。據韓電信公司SK Telecom的報道，通過微調Claude模型，顯著提升了客戶體驗和關鍵指標。全球內容與技術公司Thomson Reuters也取得了亮眼效果，進一步優化在法律、稅務等領域的一致用戶體驗。當前，微調功能已開始在美國西部（俄勒岡）AWS區域進行預覽，支持文本微調，最大上下文長度可達32K個tokens。未來，將引入視覺能力的全面部署。

開“天眼”了！谷歌將Gemini 1.5 Pro安裝到機器人上實現記憶導航能力

相關推薦

AI和生物科學跨界聯手了！OpenAI與美國國家實驗室達成合作

美國參議院新AI相關法案：爲防AI抄襲侵權禁止非法移除數字水印

德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發

騰訊AI實驗室的項目vta-ldm：輸入視頻生成對齊音頻

Anthropic宣佈Claude 3 Haiku支持微調

開“天眼”了！谷歌將Gemini 1.5 Pro安裝到機器人上 實現記憶導航能力

相關推薦

AI和生物科學跨界聯手了！OpenAI與美國國家實驗室達成合作

美國參議院新AI相關法案：爲防AI抄襲侵權 禁止非法移除數字水印

​德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發

騰訊AI實驗室的項目vta-ldm：輸入視頻生成對齊音頻

Anthropic宣佈Claude 3 Haiku支持微調

開“天眼”了！谷歌將Gemini 1.5 Pro安裝到機器人上實現記憶導航能力

美國參議院新AI相關法案：爲防AI抄襲侵權禁止非法移除數字水印

德國AI國防公司Helsing獲得4.5億歐元融資，加速產品研發