歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解https://top.aibase.com/

1、谷歌發佈全新 Gemini 2.5 Flash-Lite 穩定版:速度與成本的完美平衡

谷歌發佈了 Gemini 2.5 Flash-Lite 穩定版,該模型在速度和成本之間取得了良好的平衡,支持高達100萬 token 的上下文,並提供了多種高級功能。其定價策略具有競爭力,同時在性能上超越了之前的版本。


image.png

【AiBase提要:】

⚡Gemini 2.5 Flash-Lite 是谷歌最新發佈的速度最快、成本最低的 AI 模型,已進入穩定版本(GA)

💰每百萬輸入 token 定價爲0.10美元,輸出爲0.40美元,音頻輸入價格降低40%

🔧開發者可通過指定模型名 gemini-2.5-flash-lite 使用新版本,原有預覽版別名將於8月25日移除

2、騰訊混元自主研發ASR語音識別大模型接入ima平臺

騰訊混元的ASR大模型在ima平臺的應用,爲用戶提供了更高效的語音輸入體驗。該模型具備強大的語義理解能力,尤其在中英文混雜場景中表現突出,同時支持多種應用場景,如知識庫問答和筆記創作。


image.png

【AiBase提要:】

✅ 騰訊混元ASR大模型實現手機App端語音輸入功能,提升輸入效率。

💡 採用基於雙編碼器的流式ASR架構,顯著提升語義理解能力。

🌐 支持多語言及方言識別,未來將持續優化以滿足多樣化需求。

3、通義千問開源最新AI編程大模型Qwen3-Coder

阿里雲宣佈其最新AI編程大模型Qwen3-Coder全面開源,該模型在代碼生成和Agent能力上達到頂尖水平,爲智能編程技術帶來新突破。Qwen3-Coder擁有強大的MoE架構和長上下文處理能力,適用於大規模代碼庫和動態數據處理。


image.png

【AiBase提要:】

🔥 Qwen3-Coder採用先進的MoE架構,參數量高達480B,支持256K上下文長度。

💡 預訓練階段通過多維度擴展策略提升代碼能力,7.5T訓練數據中70%爲代碼。

🚀 開源工具Qwen Code增強解析器和工具支持,提升開發者使用體驗。

詳情鏈接:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Qwen Code GitHub:https://github.com/QwenLM/qwen-code

4、360將推智能眼鏡和AI錄音筆 周鴻禕:眼鏡帶顯示功能

360公司董事長周鴻禕透露,公司將發佈AI錄音筆與智能眼鏡。AI錄音筆能夠智能分析場景並總結要點,而智能眼鏡需要顯示功能以創造新的應用場景,如提詞器和翻譯工具,提升溝通效率。

【AiBase提要:】

🧠 AI錄音筆具備智能分析不同場景的能力,能精準總結要點。

👓 智能眼鏡需配備顯示功能以凸顯優勢,創造新應用場景。

🌐 智能眼鏡可充當提詞器和翻譯工具,提升溝通效率。

5、國內首個通過主任醫師評測的大模型,已在夸克AI搜索上線

夸克健康大模型成功通過主任醫師筆試評測,展現了其在醫學領域的強大推理能力,並已集成至AI搜索中。該模型通過構建“慢思考能力”和高質量數據訓練體系,提升了複雜醫療問題的處理能力,同時擁有專業醫師團隊支持,確保了模型輸出的專業性和準確性。


image.png


【AiBase提要:】

🧠 夸克健康大模型通過主任醫師筆試評測,展現醫學推理能力。

🔍 構建“慢思考能力”,提升複雜醫療問題的分階段推導能力。

👩‍⚕️ 擁有千人規模專業醫師標註團隊,確保模型輸出內容的專業性。

6、Hedra Live Avatars震撼發佈!每分鐘僅0.05美元,視頻AI代理開啓人機交互新紀元

Hedra Live Avatars的推出標誌着AI視頻生成技術的重大突破。其以超低成本、超低延遲和高度靈活性爲核心優勢,爲內容創作、教育、客戶服務和遊戲等領域帶來了全新的可能性。

【AiBase提要:】

⚡ 超低成本:每分鐘僅0.05美元,大幅降低高質量視頻AI代理的准入門檻。

⚡ 超低延遲:低於100毫秒的響應時間,確保實時交互的流暢性和沉浸感。

⚡ 高度靈活:兼容主流大語言模型和文本轉語音技術,支持個性化交互體驗。

詳情鏈接:https://www.hedra.com

7、谷歌 Gemini2.5革新圖像處理:不止識別物體,更能理解抽象概念與關係

谷歌推出的 Gemini2.5AI 模型創新功能“對話式圖像分割”,能夠通過自然語言提示分析和突出顯示圖像內容,超越傳統圖像分割技術,支持關係查詢、基於邏輯的指令以及抽象概念的理解。該功能在圖像編輯、工作場所安全和保險行業有廣泛應用,併爲開發者提供了便捷的 API 接口。


image.png

【AiBase提要:】

🧠 能夠理解並響應更復雜、更具語義的自然語言指令

🌐 支持多語言提示,並可提供其他語言的物體標籤

🔧 開發者可通過 Gemini API 直接訪問該功能,返回 JSON 格式結果

8、Meta 推出創新模型 AU-Nets,革新文本處理方式

Meta 推出的 AU-Net 模型通過自迴歸的 U-Net 結構,實現了對文本的靈活處理,能夠從原始字節開始學習並動態組合成多層次的序列表示,爲大語言模型的發展提供了新的思路。

【AiBase提要:】

🚀 AU-Net 架構通過自迴歸方式,動態組合字節形成多層次的序列表示。

📊 採用收縮和擴張路徑,確保宏觀語義信息和局部細節的有效融合。

⏩ 自迴歸生成機制提高推理效率,確保文本生成的連貫性與準確性。

詳情鏈接:https://github.com/facebookresearch/lingua/tree/main/apps/aunet

9、蘋果 AI 團隊內部風波:自主研發與開源夢碎,或將求助第三方大模型!

蘋果AI團隊因開源計劃受阻引發內部不滿,高級副總裁費德里吉認爲市場已有足夠開源模型,且蘋果模型在設備端性能不足。同時,蘋果推遲Siri更新並考慮與第三方大模型合作,凸顯其在AI發展上的戰略調整。

【AiBase提要:】

🍎 蘋果AI團隊開源計劃被高層否決,擔憂模型性能不足。

⚙️ 蘋果堅持設備優先策略,限制AI技術發展潛力。

🤖 蘋果或轉向與OpenAI、谷歌等第三方大模型合作提升Siri功能。

10、一鍵生成教學動畫!Fogsight AI革新教育演示,抽象概念變秒懂動畫

Fogsight是一款基於大型語言模型的AI動畫引擎,能夠將抽象概念轉化爲直觀、易懂的動畫。它通過輸入關鍵詞或短語,自動生成包含雙語旁白和電影級視覺效果的動畫短片,適用於課堂教學、在線課程和科普內容創作。

image.png

【AiBase提要:

🎥 一鍵生成:用戶輸入關鍵詞即可生成30秒至90秒的敘事完整動畫。

🎨 視覺與趣味兼得:動畫具備電影級視覺效果,提升學習興趣。

🛠️ 交互式界面:支持多輪對話調整動畫內容,滿足個性化需求。

詳情鏈接:https://github.com/fogsightai/fogsight