AI日報：阿里通義開源多模態推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、阿里發佈多模態推理模型QVQ-72B!視覺、語言能力雙提升

阿里巴巴最近推出的QVQ-72B多模態推理模型在語言和視覺能力上實現了顯著提升，能夠處理複雜的推理和分析任務，尤其在多步推理和數學推理方面表現突出。該模型的出現標誌着阿里巴巴在多模態AI領域的重大突破，提供了新的工具和思路來解決複雜問題，推動各行業的智能化升級。

【AiBase提要:】
🧠 QVQ-72B模型融合了強大的語言和視覺能力，能夠處理複雜的推理任務。
🔍 在物理和數學推理中，該模型通過多步推理顯著提升了準確率，減少了錯誤。
📊 QVQ-72B在技術報告和圖表分析中具備高效的信息提取能力，爲專業人士提供強大支持。
詳情鏈接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

2、投資三家機器人公司後 OpenAI欲自研人形機器人

OpenAI正在積極探索自研人形機器人，儘管曾在2021年關閉機器人部門。近期，該公司通過投資三家機器人公司，顯著佈局機器人領域。其旗艦模型O3在AGI測試中首次超越人類水平，爲進軍實體機器人提供了技術支持。然而，進入這一競爭激烈的市場，OpenAI可能面臨利益衝突和硬件研發短板等挑戰。

【AiBase提要:】
🤝 OpenAI投資三家機器人公司，積極佈局機器人領域。
📈 旗艦模型O3在AGI測試中超越人類，技術優勢明顯。
⚠️ 面臨市場競爭和硬件研發挑戰，需快速補齊短板。

3、QQ音樂14.0版本上線，發佈首個AI大模型音效、智能匹配聽歌音效

QQ音樂14.0版本的推出標誌着音樂體驗的一個新高度，特別是引入的AI大模型音效。這一創新技術通過分析音頻特徵，爲用戶提供個性化的聽覺體驗，尤其在3D環繞音效方面表現出色。此外，伴唱功能的升級使得用戶可以根據個人需求調節播放速度和音調，進一步增強了音樂互動的樂趣。

【AiBase提要:】
🎧 新推出的大模型音效通過AI技術提供個性化聽覺體驗，提升音樂的空間感和層次感。
🎤 伴唱功能升級，用戶可自由調節伴唱模式、播放速度和音調，滿足不同演唱需求。
🎨 多款個性化設置功能讓用戶選擇不同樣式，享受個性化的聽歌體驗。

4、訊飛星火瀏覽器插件新升級新增翻譯總結、繼續提問等AI功能

訊飛開放平臺最近對其星火瀏覽器插件進行了重要升級，顯著提升了用戶的瀏覽體驗和工作效率。新功能包括支持多語言的全局翻譯、增強的網頁總結能力以及“繼續提問”功能，使用戶能夠深入討論並獲取更高質量的答案。此外，插件還提供了一鍵朗讀功能，幫助用戶提高外語口語水平。

【AiBase提要:】
🌐 新增的“繼續提問”功能允許用戶深入討論，獲取更高質量的答案。
📚 實現網頁全局對照翻譯，支持12種語言，打破語言障礙，提升閱讀體驗。
🎤 一鍵朗讀功能幫助用戶提高外語口語水平，增強學習效果。

5、字節開源 Midscene.js:AI驅動的E2E測試框架迎來突破

隨着人工智能技術的迅猛發展，E2E測試領域正經歷着一場創新的革命。字節跳動的web-infra團隊推出的Midscene.js，結合多模態大語言模型，極大地簡化了用戶界面測試的過程。用戶無需編寫代碼，通過自然語言即可與網頁進行交互，提升了測試效率。

【AiBase提要:】
🛠️ Midscene.js通過自然語言與網頁交互，簡化了E2E測試流程。
⏱️ Shortest工具利用AI自動生成測試用例，減少重複性工作時間。
📈 AI技術的成熟使得基礎E2E測試場景的自動化水平顯著提升。
詳情鏈接:https://github.com/web-infra-dev/midscene

6、DeepMind項目MegaSaM :輸入普通視頻即可預估相機視角和景深

MegaSaM系統的推出標誌着計算機視覺領域的一次重大突破。該系統能夠從普通動態視頻中快速、準確地估計相機參數和深度圖，克服了傳統技術在動態場景中的侷限性。通過對深度視覺SLAM框架的創新性修改，MegaSaM在複雜環境下的實時處理能力顯著提高，實驗結果顯示其在準確性和效率上均優於以往技術。

【AiBase提要:】
🌟 MegaSaM系統能夠從普通動態視頻中快速、準確地估計相機參數和深度圖。
⚙️ 該技術克服了傳統方法在動態場景中的不足，適應複雜環境的實時處理。
📈 實驗結果顯示，MegaSaM在準確性和運行效率上均優於以往技術。
詳情鏈接:https://mega-sam.github.io/#demo

7、字節TikTok算法負責人陳志傑或將離職，投身AI Coding方向創業

字節跳動的TikTok算法負責人陳志傑即將離職，計劃專注於AI Coding領域的創業。自2022年加入字節跳動以來，他負責TikTok的推薦算法和數據科學團隊，之前在百度積累了近九年的技術經驗。隨着AI Coding市場的快速發展，預計到2032年將超過295億美元，吸引了衆多投資者的關注。

【AiBase提要:】
🌟 陳志傑即將離職字節跳動，專注於AI Coding創業。
🚀 AI Coding市場前景廣闊，預計到2032年將超295億美元。
💡 國內市場投資人關注AI Coding，多個項目相繼涌現。

8、Fireworks AI推出文檔解析神器!AI輕鬆讀懂複雜文件

Fireworks AI最近推出了“Document Inlining”功能，旨在解決處理非結構化文檔的難題。該功能能夠將PDF、截圖和圖像等文檔轉化爲大語言模型可理解的結構化文本，顯著提高了AI處理文檔的效率和準確性。其核心在於強大的複合AI系統，能夠自動識別和解析多種內容，操作簡單且兼容OpenAI API，用戶無需額外學習成本。

【AiBase提要:】
📄 高質量輸出: Document Inlining提供的文本質量優於傳統文本型LLM輸出，尤其在推理和生成任務中表現出色。
📊 多種文檔格式支持: 該工具支持PDF、圖片等多種格式，能夠準確提取複雜文檔中的關鍵信息。
🔍 複雜文檔解析能力: 能夠解析含有表格和圖表的複雜文檔，並將其轉換爲LLM可理解的文本。
詳情鏈接:https://fireworks.ai/blog/document-inlining-launch#quality-evaluation

9、果然最強!OpenAI 新模型o3在ARC-AGI基準測試得分破紀錄

OpenAI最新發佈的模型o3在ARC-AGI基準測試中取得了顯著成績，標準計算條件下得分75.7%，高計算版本更是達到87.5%。儘管這一成就震驚了AI研究界，但專家指出o3仍未達到通用人工智能（AGI）的標準。o3的計算成本高昂，解決每個謎題需17至20美元，且在某些簡單任務上表現不佳。

【AiBase提要:】
🌟 o3在ARC-AGI基準測試中獲得75.7%的高分，表現超越以往模型。
💰 o3解決每個謎題的成本高達17到20美元，計算量巨大。
🚫 儘管o3表現優秀，但專家們強調其尚未達到AGI的標準。

10、打錯字也能 “越獄”GPT-4o、Claude:揭祕AI聊天機器人的脆弱性!

最近的研究揭示了先進AI聊天機器人在面對簡單拼寫錯誤時的脆弱性。通過一種名爲“最佳選擇（Best-of-N，BoN）越獄”的算法，研究人員發現，故意加入拼寫錯誤可以讓這些模型忽視安全防護，生成本應拒絕的內容。這一發現不僅突顯了AI與人類價值觀對齊的困難，也表明即使是高級AI系統也容易受到欺騙。

【AiBase提要:】
🔍 研究發現，通過拼寫錯誤等簡單技巧，AI聊天機器人可被輕易 “越獄”。
🧠 BoN越獄技術在多種AI模型中成功率達52%，有些甚至高達89%。
🎨 此技術在音頻和圖像輸入中同樣有效，顯示出AI的脆弱性。

11、尷尬!谷歌被曝用Claude模型進行對比測試來改進Gemini AI

近日，谷歌的Gemini人工智能項目正在通過與Anthropic公司的Claude模型進行對比測試，以提升自身的性能。負責Gemini改進的承包商正在評估這兩種模型的輸出，比較的標準包括真實性和安全性。儘管谷歌是Anthropic的主要投資者之一，但谷歌發言人表示並未對Gemini進行Claude模型的訓練。

【AiBase提要:】
🌟 Gemini正在與Claude進行對比測試，以提升自身AI模型的性能。
🔍 承包商負責評分，兩者的回答比較涉及多個標準，包括真實性和安全性。
🚫 Anthropic禁止在未授權的情況下使用Claude進行競爭性模型的訓練。

12、研究發現，OpenAI 的 o1-preview 在診斷複雜醫療病例方面優於醫生

一項新研究表明，OpenAI 的 o1-preview 人工智能系統在複雜醫療案例的診斷上表現優於人類醫生，達到了88.6%的準確率。該系統在醫療推理方面同樣出色，獲得了80個病例中78個滿分。儘管o1-preview在某些方面表現優秀，但在實際應用中仍面臨高成本和不切實際的測試建議等問題。

【AiBase提要:】
🌟 o1-preview 在診斷率上超過醫生，達到88.6%的準確率。
🧠 醫療推理方面，o1-preview 在80個病例中獲得78個滿分，遠超醫生表現。
💰 儘管表現優秀，o1-preview 在實際應用中的高成本和不切實際的測試建議仍需解決。
詳情鏈接:https://arxiv.org/abs/2412.10849

AI日報：阿里通義開源多模態推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

相關推薦

MiniMax7月9日迎首批解禁阿里、米哈遊明確不減持

阿里巴巴發佈HappyHorse 1.1 視頻生成模型多維度系統性升級

AI 戰略再提速：阿里巴巴整合組織架構，成立 Token Foundry 事業部

阿里千問 AI 眼鏡 S1 升級：主動服務與全球首個 3D 顯示功能來襲

阿里大模型加速“入世”：千問數字人亮相，核心生態全面打通

AI日報：阿里通義開源多模態推理模型QVQ-72B；OpenAI考慮自研人形機器人；QQ音樂上線首個AI大模型音效

相關推薦

MiniMax7月9日迎首批解禁 阿里、米哈遊明確不減持

阿里巴巴發佈HappyHorse 1.1 視頻生成模型 多維度系統性升級

AI 戰略再提速：阿里巴巴整合組織架構，成立 Token Foundry 事業部

​阿里千問 AI 眼鏡 S1 升級：主動服務與全球首個 3D 顯示功能來襲

阿里大模型加速“入世”：千問數字人亮相，核心生態全面打通

MiniMax7月9日迎首批解禁阿里、米哈遊明確不減持

阿里巴巴發佈HappyHorse 1.1 視頻生成模型多維度系統性升級

阿里千問 AI 眼鏡 S1 升級：主動服務與全球首個 3D 顯示功能來襲