AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智能核心技術；360智腦推出Light-IF系列模型

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://www.aibase.cn/

1、智譜GLM-4.5V開源發佈:全球100B級最佳視覺推理模型

智譜宣佈推出並開源了全球100B級效果最佳的開源視覺推理模型GLM-4.5V，這是該公司在通向通用人工智能（AGI）道路上的又一重要探索性成果。

【AiBase提要:】
🤖 GLM-4.5V總參數達到106B，在41個視覺多模態榜單中達到SOTA性能
🎯 具備全場景視覺推理能力，包括圖像推理、視頻理解、GUI任務等
💡 新增"思考模式"開關，平衡效率與效果
💰 API價格低至輸入2元/M tokens，輸出6元/M tokens

2、阿里達摩院開源三項具身智能核心技術

在世界機器人大會上，阿里達摩院宣佈開源三項自研核心技術:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及機器人上下文協議RynnRCP。這一舉措旨在推動數據、模型與機器人本體的兼容適配，打通具身智能開發的完整流程。

【AiBase提要:】
🚀 開源三項核心技術:VLA模型、世界理解模型、機器人上下文協議
🔗 RynnRCP實現從傳感器數據到機器人動作執行的完整工作流程
👁️ RynnVLA-001從第一人稱視角視頻學習人類操作技能
🌍 RynnEC從11個維度全面解析場景物體，無需依賴3D模型
詳情鏈接:https://github.com/alibaba-damo-academy/RynnRCP

3、蘋果即將升級 Apple Intelligence 至 GPT-5，推動 Siri 與寫作工具智能化

蘋果公司近日宣佈，計劃在即將發佈的 iOS26、iPadOS26和 macOS Tahoe26系統更新中，將其 Apple Intelligence 中的 ChatGPT 核心模型升級至最新的 GPT-5版本。

【AiBase提要:】
🚀蘋果將在 iOS26等系統更新中將 ChatGPT 模型升級至 GPT-5，以提升 Siri、寫作工具和視覺智能的性能。
🚀新版本將引入多語言實時翻譯及屏幕內容分析功能，增強設備在跨語言交流和信息處理方面的能力。
🚀蘋果還首次向開發者開放設備端 API，支持第三方應用接入，提供低延遲和高隱私的 AI 體驗。

4、高德全面接入通義大模型推出首個地圖AI原生Agent

阿里巴巴集團高德地圖聯合通義實驗室發佈全球首個 AI 原生地圖，推出“小高老師”智能體，實現全鏈路語音交互與複雜任務推理導航。

【AiBase提要:】
🎙️ 內置智能體“小高老師”，支持音頻/文本等多模態交互，支持隨時打斷的全雙工語音。
🧠 基於36萬億 token 預訓練的 Qwen 大模型，實現空間語義深度理解與高效調度近百種內部工具。
🗂️ 聯合推出複雜 POI 推理 Agent，可拆解多重約束並整合實時信息，提供精準推薦與導航。
🔍 依託自研 DeepResearch 框架，具備規劃、反思、工具調用等完整 Agent 能力。

5、宇樹科技將出徵首屆世界人形機器人運動會，硬件將被多隊採用

宇樹科技將於8月14日至17日參加首屆世界人形機器人運動會。宇樹透露，除其自有團隊外，賽場上還將有多支隊伍使用宇樹機器人硬件參賽，但會搭配各自自研的算法。

【AiBase提要:】
🤖 除宇樹自有團隊外，賽場上還將有多個隊伍使用宇樹的機器人硬件參賽，但會搭配各自研發的算法。
🏟️ 此次運動會匯聚了天工、加速進化、鬆延動力、傅利葉、星海圖等國內頭部人形機器人企業，以及來自美國、德國、澳大利亞、巴西、日本等16個國家的共計280支隊伍。
🔧 宇樹科技的參與不僅展示了其在人形機器人硬件方面的實力，也體現了其設備在開放生態中的廣泛應用和競爭力。

6、Claude AI 推出歷史對話記憶功能，支持多背景切換

Anthropic 爲 Claude AI 上線“記憶功能”，可自動記憶並複用用戶歷史對話中的背景信息，實現跨會話無縫銜接，並支持多背景隔離切換，目前僅向付費用戶開放。

【AiBase提要:】
🔄 支持爲不同項目設定獨立背景，工作/生活場景一鍵切換，保持上下文延續。
💰 先行面向 Claude Max、Team、Enterprise 付費用戶，Pro 版後續跟進，免費用戶暫未開放。
⚙️ 用戶可在“設置—搜索和參考聊天”中手動啓用或查看記憶內容。
🤖 與 ChatGPT 手動預設不同，Claude 採用自動提取機制，體驗更“無感”但可控性稍弱。

7、360智腦推出Light-IF系列模型顯著提升複雜指令遵循能力

360智腦發佈Light-IF系列模型，以“預覽-自檢式推理+信息熵控制”框架專治“懶惰推理”，在四大基準全面領先，小參數即可越級打大模型，並全部開源。

微信截圖_20250812101839.png

【AiBase提要:】
🎯 創新Light-IF框架:難度感知指令生成→Zero-RL強化→推理模式過濾→熵保持冷啓動→熵自適應正則，顯著抑制“只會複述不檢查”的懶惰推理。
📈 權威評測霸榜:Light-IF-32B在SuperCLUE拿下0.575，領先第二名13.9個百分點;Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型。
🔓 全面開源:模型權重將陸續上線Hugging Face，冷啓動數據集與訓練代碼同步發佈GitHub，並聯合SuperCLUE推出中文評測基準SuperCLUE-CPIFOpen。

8、字節跳動推出視頻字幕無痕擦除方案基於DiT大模型打造

字節跳動發佈全球首個基於DiT大模型的“視頻字幕無痕擦除”方案，實現像素級修復、多語言適配、一鍵“擦除-翻譯-口型同步”，助力短劇出海與跨境電商全球化。

微信截圖_20250812103606.png

【AiBase提要:】
🎞️ 兩大核心:DiT視頻字幕擦除大模型+字體級分割模型，像素級精準修復，告別馬賽克/模糊/閃爍。
🌐 多語言支持:突破中英限制，覆蓋小語種，形成“擦除-翻譯-口型同步”一站式閉環。
⚙️ 工程落地:萬集數據驗證，成功率100%;分佈式分鏡計算，效率提升數倍。
詳情地址：https://console.volcengine.com/vod/

9、崑崙萬維發佈開源世界模型Matrix-Game2.0:實時生成分鐘級高連貫視頻

崑崙萬維發佈全球首個開源交互式世界模型 Matrix-Game2.0，實時生成分鐘級25fps 高連貫視頻，支持無語言提示的純視覺驅動交互，已在 GTA、Minecraft 等場景落地。

【AiBase提要】
🚀 開源首發:業內首個通用場景實時長序列開源世界模型，持續迭代全面開放。
📹 分鐘級生成:25fps 連續視頻，物理規律與場景語義理解大幅提升，可直接用於遊戲/影視/VR。
🎮 視覺驅動交互:摒棄語言提示，3D 因果 VAE + 多模態擴散 Transformer 逐幀響應用戶動作，跨域適應多風格場景。

10、崑崙萬維開源 Matrix-3D 大模型:用單張圖像可生成高質量全景視頻

崑崙萬維開源 Matrix-3D:單圖即可生成360° 可漫遊3D 全景視頻，軌跡一致、幾何精準，全面開放代碼與數據集。

【AiBase提要】
🌐 單圖生成3D 世界:打破多視角依賴，直接由單張圖像產出高質量全景視頻與可探索3D 場景。
🎥 軌跡引導一致性:用 Mesh 渲染圖驅動擴散模型，保證相機軌跡下的時空一致，減少僞影與遮擋。
⚙️ 雙路徑重建:超分+結構優化慢工出細活;Transformer 前饋網絡極速推理，兼顧質量與效率
詳情：https://github.com/SkyworkAI/Matrix-3D

AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智能核心技術；360智腦推出Light-IF系列模型

相關推薦

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

AI日報：智譜視覺推理模型GLM-4.5V開源；達摩院開源三項具身智能核心技術；360智腦推出Light-IF系列模型

相關推薦

近七成美國民衆渴望共享AI紅利！呼籲設立主權財富基金

​Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

​Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

Claude Code再進化！內置瀏覽器讓AI自主“刷網頁”

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能