對標GPT-4o！開源大模型Moshi震撼登場：無區域限制，手機兼容

法國開源AI研究實驗室Kyutai發佈了一款全新的多模態大模型Moshi。這不僅僅是一個技術突破，更是對現有AI技術的一次大膽挑戰。

7月4日凌晨，Kyutai在官網宣佈了Moshi的到來。這款模型的功能與OpenAI在5月展示的GPT-4o相當，能夠聽取人的語音提問並實時進行推理回答。但與GPT-4o的語音模式要等到秋天才能全面開放不同，Moshi已經可以被大家使用。

主要特點：

多模態能力：Moshi可以聽取人的語音提問後進行實時推理回答，而且它的語音模式已經開放，比GPT-4o的秋天上線要快得多。
無區域限制：無論你身在何處，都能使用Moshi。
手機移動端支持：雖然對普通話支持不太好，但用英語提問完全沒問題。
即將開源：Kyutai計劃很快開源Moshi，屆時將公佈代碼、模型權重和論文。

QQ截圖20240704095539.jpg

體驗地址:https://top.aibase.com/tool/moshi-chat

Moshi的發佈，無疑是對AI技術的一次大膽嘗試。它不僅具備聽、說的能力，未來還可能展示出看的能力。這讓我們對AI的未來充滿了期待。而且，Moshi的使用過程非常簡單，只需登錄官網，填寫郵箱地址，點擊加入，就能開始與Moshi進行對話。

官方演示視頻

值得一提的是，Moshi對普通話的支持還有待提高，使用英語提問會得到更好的體驗。此外，Moshi不鎖區，無論身在何處，都能直接使用，這無疑爲全球的AI愛好者提供了極大的便利。

官方演示

Kyutai實驗室的這一舉措，也顯示出了他們對開源精神的堅持。他們計劃很快開源Moshi，公佈代碼、模型權重和論文，讓全球的開發者和研究者都能參與到Moshi的開發和優化中來。

使用感受

響應速度快：即使是在國區線路上使用，Moshi也能幾乎無延遲地響應提問。
語言支持：目前Moshi主要支持英語和法語，中文普通話支持有待提高。
使用便捷：註冊流程簡單，只需提交郵箱即可。
能力展示：Moshi展示了聽和說的能力，未來可能還會增加看的能力。Moshi的擬人化語氣是其一大特點，機器味很少，這讓對話體驗更加自然流暢。

當然，Moshi目前的回答內容還比較有限，只能提供大致的輪廓和概要。但隨着產品的不斷迭代和優化，我們相信Moshi的回答將變得更加詳盡和準確。

此外，Moshi的發佈對教育行業也將產生深遠的影響。例如，AI可以爲學生提供循環講解，這對於教育幫助是巨大的。我們期待未來能有更多類似的產品出現，支持更多地方語言，讓AI技術更加貼近人們的生活。

2024世界人工智能大會開幕百度李彥宏：沒有應用大模型一文不值

今天，在上海舉辦的2024年世界人工智能大會及其全球治理高級別會議上，百度公司首席執行官李彥宏發表了主題演講。李彥宏強調，僅有基礎模型而無實際應用場景，無論該模型是開源還是閉源，都不能體現其真正的價值。他呼籲業界不要僅僅聚焦於模型本身的競爭，而應轉向應用的深度開發。他認爲，只要應用能爲產業帶來顯著的效益，其創造的整體價值將遠超移動互聯網。

Google Pixel 9新功能曝光：AI加持，類似微軟Recall的智能體驗即將到來！

谷歌這次動真格了!據最新爆料的信息顯示，Google Pixel9系列即將帶來一系列讓人眼前一亮的AI新功能。想象一下，你和朋友們的合照總是因爲某個人眨眼或沒有微笑而留下遺憾。但現在，有了Add Me功能，這些遺憾將成爲過去。它能夠在合照中捕捉每個人最佳的表情，甚至可以將不同照片中的人物表情融合到一張合照中，確保每個人都能以最佳狀態出現。

Agent再升級！崑崙萬維、智源等聯合發佈計算機控制框架 “Cradle”

崑崙萬維與北京智源人工智能研究院、新加坡南洋理工大學、北京大學等機構聯合發佈了一款名爲Cradle的通用計算機控制框架。這一AI框架使智能體（AI Agent）能夠無需特別訓練，直接像人一樣控制鍵盤和鼠標，與任意開閉源軟件進行交互，不依賴任何內部API。Cradle是首個能夠同時玩轉多種商業遊戲和操作各類軟件應用的AI框架，其論文、項目和代碼均已開源。

中國生成式AI專利申請量全球第一：是美國6倍

據聯合國公佈數據顯示，在聊天機器人等生成式人工智能技術領域，中國擁有的專利申請數量位居全球首位，是美國的六倍。生成式人工智能技術使用戶能夠創作文本、圖像、音樂和計算機代碼等內容，廣泛應用於多個工業和消費品，例如ChatGPT、Google Gemini

ElevenLabs發佈消音神器VOICE ISOLATOR 可去除音頻中的背景噪音

今天，ElevenLabs給我們帶來了一個讓音頻愛好者們興奮不已的新產品——VOICE ISOLATOR，一款能夠"消音"的神奇工具。它不僅能消除不需要的背景噪音，還能從任何音頻中提取出清晰的對話，讓你的播客、採訪或電影聽起來就像在專業錄音室錄製的一樣。