AI日報：通義開源AI編程大模型Qwen3-Coder；360將推智能眼鏡和AI錄音筆；谷歌發佈Gemini 2.5 Flash-Lite 穩定版

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://top.aibase.com/

1、谷歌發佈全新 Gemini 2.5 Flash-Lite 穩定版：速度與成本的完美平衡

谷歌發佈了 Gemini 2.5 Flash-Lite 穩定版，該模型在速度和成本之間取得了良好的平衡，支持高達100萬 token 的上下文，並提供了多種高級功能。其定價策略具有競爭力，同時在性能上超越了之前的版本。

【AiBase提要:】
⚡Gemini 2.5 Flash-Lite 是谷歌最新發佈的速度最快、成本最低的 AI 模型，已進入穩定版本（GA）
💰每百萬輸入 token 定價爲0.10美元，輸出爲0.40美元，音頻輸入價格降低40%
🔧開發者可通過指定模型名 gemini-2.5-flash-lite 使用新版本，原有預覽版別名將於8月25日移除

2、騰訊混元自主研發ASR語音識別大模型接入ima平臺

騰訊混元的ASR大模型在ima平臺的應用，爲用戶提供了更高效的語音輸入體驗。該模型具備強大的語義理解能力，尤其在中英文混雜場景中表現突出，同時支持多種應用場景，如知識庫問答和筆記創作。

【AiBase提要:】
✅ 騰訊混元ASR大模型實現手機App端語音輸入功能，提升輸入效率。
💡 採用基於雙編碼器的流式ASR架構，顯著提升語義理解能力。
🌐 支持多語言及方言識別，未來將持續優化以滿足多樣化需求。

3、通義千問開源最新AI編程大模型Qwen3-Coder

阿里雲宣佈其最新AI編程大模型Qwen3-Coder全面開源，該模型在代碼生成和Agent能力上達到頂尖水平，爲智能編程技術帶來新突破。Qwen3-Coder擁有強大的MoE架構和長上下文處理能力，適用於大規模代碼庫和動態數據處理。

【AiBase提要:】
🔥 Qwen3-Coder採用先進的MoE架構，參數量高達480B，支持256K上下文長度。
💡 預訓練階段通過多維度擴展策略提升代碼能力，7.5T訓練數據中70%爲代碼。
🚀 開源工具Qwen Code增強解析器和工具支持，提升開發者使用體驗。
詳情鏈接:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Qwen Code GitHub:https://github.com/QwenLM/qwen-code

4、360將推智能眼鏡和AI錄音筆周鴻禕：眼鏡帶顯示功能

360公司董事長周鴻禕透露，公司將發佈AI錄音筆與智能眼鏡。AI錄音筆能夠智能分析場景並總結要點，而智能眼鏡需要顯示功能以創造新的應用場景，如提詞器和翻譯工具，提升溝通效率。

【AiBase提要:】
🧠 AI錄音筆具備智能分析不同場景的能力，能精準總結要點。
👓 智能眼鏡需配備顯示功能以凸顯優勢，創造新應用場景。
🌐 智能眼鏡可充當提詞器和翻譯工具，提升溝通效率。

5、國內首個通過主任醫師評測的大模型，已在夸克AI搜索上線

夸克健康大模型成功通過主任醫師筆試評測，展現了其在醫學領域的強大推理能力，並已集成至AI搜索中。該模型通過構建“慢思考能力”和高質量數據訓練體系，提升了複雜醫療問題的處理能力，同時擁有專業醫師團隊支持，確保了模型輸出的專業性和準確性。

【AiBase提要:】
🧠 夸克健康大模型通過主任醫師筆試評測，展現醫學推理能力。
🔍 構建“慢思考能力”，提升複雜醫療問題的分階段推導能力。
👩‍⚕️ 擁有千人規模專業醫師標註團隊，確保模型輸出內容的專業性。

6、Hedra Live Avatars震撼發佈！每分鐘僅0.05美元，視頻AI代理開啓人機交互新紀元

Hedra Live Avatars的推出標誌着AI視頻生成技術的重大突破。其以超低成本、超低延遲和高度靈活性爲核心優勢，爲內容創作、教育、客戶服務和遊戲等領域帶來了全新的可能性。

【AiBase提要:】
⚡ 超低成本：每分鐘僅0.05美元，大幅降低高質量視頻AI代理的准入門檻。
⚡ 超低延遲：低於100毫秒的響應時間，確保實時交互的流暢性和沉浸感。
⚡ 高度靈活：兼容主流大語言模型和文本轉語音技術，支持個性化交互體驗。
詳情鏈接:https://www.hedra.com

7、谷歌 Gemini2.5革新圖像處理:不止識別物體，更能理解抽象概念與關係

谷歌推出的 Gemini2.5AI 模型創新功能“對話式圖像分割”，能夠通過自然語言提示分析和突出顯示圖像內容，超越傳統圖像分割技術，支持關係查詢、基於邏輯的指令以及抽象概念的理解。該功能在圖像編輯、工作場所安全和保險行業有廣泛應用，併爲開發者提供了便捷的 API 接口。

【AiBase提要:】
🧠 能夠理解並響應更復雜、更具語義的自然語言指令
🌐 支持多語言提示，並可提供其他語言的物體標籤
🔧 開發者可通過 Gemini API 直接訪問該功能，返回 JSON 格式結果

8、Meta 推出創新模型 AU-Nets，革新文本處理方式

Meta 推出的 AU-Net 模型通過自迴歸的 U-Net 結構，實現了對文本的靈活處理，能夠從原始字節開始學習並動態組合成多層次的序列表示，爲大語言模型的發展提供了新的思路。

【AiBase提要:】
🚀 AU-Net 架構通過自迴歸方式，動態組合字節形成多層次的序列表示。
📊 採用收縮和擴張路徑，確保宏觀語義信息和局部細節的有效融合。
⏩ 自迴歸生成機制提高推理效率，確保文本生成的連貫性與準確性。
詳情鏈接:https://github.com/facebookresearch/lingua/tree/main/apps/aunet

9、蘋果 AI 團隊內部風波：自主研發與開源夢碎，或將求助第三方大模型！

蘋果AI團隊因開源計劃受阻引發內部不滿，高級副總裁費德里吉認爲市場已有足夠開源模型，且蘋果模型在設備端性能不足。同時，蘋果推遲Siri更新並考慮與第三方大模型合作，凸顯其在AI發展上的戰略調整。

【AiBase提要:】
🍎 蘋果AI團隊開源計劃被高層否決，擔憂模型性能不足。
⚙️ 蘋果堅持設備優先策略，限制AI技術發展潛力。
🤖 蘋果或轉向與OpenAI、谷歌等第三方大模型合作提升Siri功能。

10、一鍵生成教學動畫！Fogsight AI革新教育演示，抽象概念變秒懂動畫

Fogsight是一款基於大型語言模型的AI動畫引擎，能夠將抽象概念轉化爲直觀、易懂的動畫。它通過輸入關鍵詞或短語，自動生成包含雙語旁白和電影級視覺效果的動畫短片，適用於課堂教學、在線課程和科普內容創作。

【AiBase提要:
🎥 一鍵生成：用戶輸入關鍵詞即可生成30秒至90秒的敘事完整動畫。
🎨 視覺與趣味兼得：動畫具備電影級視覺效果，提升學習興趣。
🛠️ 交互式界面：支持多輪對話調整動畫內容，滿足個性化需求。
詳情鏈接:https://github.com/fogsightai/fogsight

AI日報：通義開源AI編程大模型Qwen3-Coder；360將推智能眼鏡和AI錄音筆；谷歌發佈Gemini 2.5 Flash-Lite 穩定版

相關推薦

快手與上交大聯合推出Orthus模型，打破多模態生成新邊界

訊飛星火X1升級版即將上線，深度推理能力再攀高峯

崑崙萬維推出音樂模型Mureka V7、音頻模型Mureka TTS V1

Gupshup獲6000萬美元融資，能否重回獨角獸行列？

消息稱阿里將推出AI眼鏡雙版本深度整合生態劍指大衆市場

AI日報：通義開源AI編程大模型Qwen3-Coder；​360將推智能眼鏡和AI錄音筆；谷歌發佈Gemini 2.5 Flash-Lite 穩定版

相關推薦

快手與上交大聯合推出Orthus模型，打破多模態生成新邊界

訊飛星火X1升級版即將上線，深度推理能力再攀高峯

崑崙萬維推出音樂模型Mureka V7、音頻模型Mureka TTS V1

Gupshup獲6000萬美元融資，能否重回獨角獸行列？

消息稱阿里將推出AI眼鏡 雙版本深度整合生態劍指大衆市場

AI日報：通義開源AI編程大模型Qwen3-Coder；360將推智能眼鏡和AI錄音筆；谷歌發佈Gemini 2.5 Flash-Lite 穩定版

消息稱阿里將推出AI眼鏡雙版本深度整合生態劍指大衆市場