歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。
新鮮AI產品點擊瞭解:https://www.aibase.cn/
1、智譜GLM-4.5V開源發佈:全球100B級最佳視覺推理模型
智譜宣佈推出並開源了全球100B級效果最佳的開源視覺推理模型GLM-4.5V,這是該公司在通向通用人工智能(AGI)道路上的又一重要探索性成果。
【AiBase提要:】
🤖 GLM-4.5V總參數達到106B,在41個視覺多模態榜單中達到SOTA性能
🎯 具備全場景視覺推理能力,包括圖像推理、視頻理解、GUI任務等
💡 新增"思考模式"開關,平衡效率與效果
💰 API價格低至輸入2元/M tokens,輸出6元/M tokens
2、阿里達摩院開源三項具身智能核心技術
在世界機器人大會上,阿里達摩院宣佈開源三項自研核心技術:VLA模型RynnVLA-001-7B、世界理解模型RynnEC以及機器人上下文協議RynnRCP。這一舉措旨在推動數據、模型與機器人本體的兼容適配,打通具身智能開發的完整流程。
【AiBase提要:】
🚀 開源三項核心技術:VLA模型、世界理解模型、機器人上下文協議
🔗 RynnRCP實現從傳感器數據到機器人動作執行的完整工作流程
👁️ RynnVLA-001從第一人稱視角視頻學習人類操作技能
🌍 RynnEC從11個維度全面解析場景物體,無需依賴3D模型
詳情鏈接:https://github.com/alibaba-damo-academy/RynnRCP
3、蘋果即將升級 Apple Intelligence 至 GPT-5,推動 Siri 與寫作工具智能化
蘋果公司近日宣佈,計劃在即將發佈的 iOS26、iPadOS26和 macOS Tahoe26系統更新中,將其 Apple Intelligence 中的 ChatGPT 核心模型升級至最新的 GPT-5版本。
【AiBase提要:】
🚀蘋果將在 iOS26等系統更新中將 ChatGPT 模型升級至 GPT-5,以提升 Siri、寫作工具和視覺智能的性能。
🚀新版本將引入多語言實時翻譯及屏幕內容分析功能,增強設備在跨語言交流和信息處理方面的能力。
🚀蘋果還首次向開發者開放設備端 API,支持第三方應用接入,提供低延遲和高隱私的 AI 體驗。
4、高德全面接入通義大模型 推出首個地圖AI原生Agent
阿里巴巴集團高德地圖聯合通義實驗室發佈全球首個 AI 原生地圖,推出“小高老師”智能體,實現全鏈路語音交互與複雜任務推理導航。
【AiBase提要:】
🎙️ 內置智能體“小高老師”,支持音頻/文本等多模態交互,支持隨時打斷的全雙工語音。
🧠 基於36萬億 token 預訓練的 Qwen 大模型,實現空間語義深度理解與高效調度近百種內部工具。
🗂️ 聯合推出複雜 POI 推理 Agent,可拆解多重約束並整合實時信息,提供精準推薦與導航。
🔍 依託自研 DeepResearch 框架,具備規劃、反思、工具調用等完整 Agent 能力。
5、宇樹科技將出徵首屆世界人形機器人運動會,硬件將被多隊採用
宇樹科技將於8月14日至17日參加首屆世界人形機器人運動會。宇樹透露,除其自有團隊外,賽場上還將有多支隊伍使用宇樹機器人硬件參賽,但會搭配各自自研的算法。
【AiBase提要:】
🤖 除宇樹自有團隊外,賽場上還將有多個隊伍使用宇樹的機器人硬件參賽,但會搭配各自研發的算法 。
🏟️ 此次運動會匯聚了天工、加速進化、鬆延動力、傅利葉、星海圖等國內頭部人形機器人企業,以及來自美國、德國、澳大利亞、巴西、日本等16個國家的共計280支隊伍 。
🔧 宇樹科技的參與不僅展示了其在人形機器人硬件方面的實力,也體現了其設備在開放生態中的廣泛應用和競爭力 。
6、Claude AI 推出歷史對話記憶功能,支持多背景切換
Anthropic 爲 Claude AI 上線“記憶功能”,可自動記憶並複用用戶歷史對話中的背景信息,實現跨會話無縫銜接,並支持多背景隔離切換,目前僅向付費用戶開放。
【AiBase提要:】
🔄 支持爲不同項目設定獨立背景,工作/生活場景一鍵切換,保持上下文延續。
💰 先行面向 Claude Max、Team、Enterprise 付費用戶,Pro 版後續跟進,免費用戶暫未開放。
⚙️ 用戶可在“設置—搜索和參考聊天”中手動啓用或查看記憶內容。
🤖 與 ChatGPT 手動預設不同,Claude 採用自動提取機制,體驗更“無感”但可控性稍弱。
7、360智腦推出Light-IF系列模型 顯著提升複雜指令遵循能力
360智腦發佈Light-IF系列模型,以“預覽-自檢式推理+信息熵控制”框架專治“懶惰推理”,在四大基準全面領先,小參數即可越級打大模型,並全部開源。
【AiBase提要:】
🎯 創新Light-IF框架:難度感知指令生成→Zero-RL強化→推理模式過濾→熵保持冷啓動→熵自適應正則,顯著抑制“只會複述不檢查”的懶惰推理。
📈 權威評測霸榜:Light-IF-32B在SuperCLUE拿下0.575,領先第二名13.9個百分點;Light-IF-1.7B小模型反超Qwen3-235B-A22B等超大模型。
🔓 全面開源:模型權重將陸續上線Hugging Face,冷啓動數據集與訓練代碼同步發佈GitHub,並聯合SuperCLUE推出中文評測基準SuperCLUE-CPIFOpen。
8、字節跳動推出視頻字幕無痕擦除方案 基於DiT大模型打造
字節跳動發佈全球首個基於DiT大模型的“視頻字幕無痕擦除”方案,實現像素級修復、多語言適配、一鍵“擦除-翻譯-口型同步”,助力短劇出海與跨境電商全球化。
【AiBase提要:】
🎞️ 兩大核心:DiT視頻字幕擦除大模型+字體級分割模型,像素級精準修復,告別馬賽克/模糊/閃爍。
🌐 多語言支持:突破中英限制,覆蓋小語種,形成“擦除-翻譯-口型同步”一站式閉環。
⚙️ 工程落地:萬集數據驗證,成功率100%;分佈式分鏡計算,效率提升數倍。
詳情地址:https://console.volcengine.com/vod/
9、崑崙萬維發佈開源世界模型Matrix-Game2.0:實時生成分鐘級高連貫視頻
崑崙萬維發佈全球首個開源交互式世界模型 Matrix-Game2.0,實時生成分鐘級25fps 高連貫視頻,支持無語言提示的純視覺驅動交互,已在 GTA、Minecraft 等場景落地。
【AiBase提要】
🚀 開源首發:業內首個通用場景實時長序列開源世界模型,持續迭代全面開放。
📹 分鐘級生成:25fps 連續視頻,物理規律與場景語義理解大幅提升,可直接用於遊戲/影視/VR。
🎮 視覺驅動交互:摒棄語言提示,3D 因果 VAE + 多模態擴散 Transformer 逐幀響應用戶動作,跨域適應多風格場景。
10、崑崙萬維開源 Matrix-3D 大模型:用單張圖像可生成高質量全景視頻
崑崙萬維開源 Matrix-3D:單圖即可生成360° 可漫遊3D 全景視頻,軌跡一致、幾何精準,全面開放代碼與數據集。
【AiBase提要】
🌐 單圖生成3D 世界:打破多視角依賴,直接由單張圖像產出高質量全景視頻與可探索3D 場景。
🎥 軌跡引導一致性:用 Mesh 渲染圖驅動擴散模型,保證相機軌跡下的時空一致,減少僞影與遮擋。
⚙️ 雙路徑重建:超分+結構優化慢工出細活;Transformer 前饋網絡極速推理,兼顧質量與效率
詳情:https://github.com/SkyworkAI/Matrix-3D