AI日報：阿里推全新圖片模型Qwen-Image；小米全量開源MiDashengLM-7B；智譜Zread.ai搭載 GLM-4.5

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://top.aibase.com/

1、小米全量開源MiDashengLM-7B：音頻理解性能刷新SOTA，推理速度暴增 20 倍

小米正式發佈並全量開源了MiDashengLM-7B多模態大模型，該模型在音頻理解領域實現了性能和效率的雙重突破。其在 22 個公開評測集上取得最佳成績，並且在推理效率方面表現出色，單樣本首Token延遲僅爲業界先進模型的四分之一，數據吞吐效率高出 20 倍以上。

【AiBase提要:】
🧠 雙核心架構設計，融合專業音頻處理與語言理解能力。
🎧 實現語音、環境聲音和音樂的統一理解，提升跨域音頻識別精度。
🚀 推理效率顯著提升，支持終端離線部署，降低使用成本。

2、騰訊旗下AI工作臺ima 推出全新功能，支持 AI 播客和文件夾導入等多項實用工具

騰訊旗下AI知識管理工具ima推出了多項新功能，包括AI播客生成、文件夾一鍵導入、Xmind腦圖導入及知識庫內容置頂，旨在提升用戶的知識獲取和管理體驗。

【AiBase提要:】
🧠 支持AI播客生成，幫助用戶更輕鬆地消化長篇文章或報告。
📁 提供一鍵導入文件夾功能，簡化文檔管理流程。
📌 可將重要文檔置頂，提升信息檢索效率。

3、阿里通義千問開源全新文生圖模型Qwen-Image

阿里通義千問開源了全新的文生圖模型Qwen-Image，該模型在文本渲染和圖像編輯方面表現出色，並在多個基準測試中取得領先性能，成爲圖像生成與編輯領域的重要突破。

【AiBase提要:】
🖼️ Qwen-Image支持多行佈局、段落級文本生成及細粒度細節呈現，能精準渲染宮崎駿風格動漫場景和中文對聯書法效果。
🎨 在圖像編輯方面，Qwen-Image具備風格遷移、物體增減、細節增強等能力，使普通用戶也能輕鬆實現專業級圖像編輯。
📈 Qwen-Image在多個公開基準測試中表現卓越，尤其在中文文本渲染上大幅領先現有先進模型，展現了全面優勢。
詳情鏈接:https://modelscope.cn/models/Qwen/Qwen-Image

4、ChatGPT用戶數暴漲至 7 億創紀錄新高，OpenAI年化收入飆升至 120 億美元

文章詳細介紹了ChatGPT的用戶增長、商業化進展以及OpenAI的財務表現。同時提到GPT- 5 可能即將發佈，以及與谷歌AI產品的競爭情況。此外，還強調了產品優化和對用戶健康的關注。

【AiBase提要:】
🔥 ChatGPT周活躍用戶達到 7 億，同比增長超四倍。
💰 OpenAI年化收入達到 120 億美元，遠超預期。
💡 新增休息提醒功能，關注用戶健康與體驗提升。

5、Anthropic疑似開始內測Claude Opus 4.1：代號leopard暗示推理能力重大升級

文章指出，Anthropic正在對其下一代大語言模型Claude Opus 4. 1 進行內部測試，其內部代號爲claude-leopard-v2-02-prod。新模型的宣傳語強調了問題解決能力的顯著提升，表明其在邏輯推理和複雜任務處理方面有重大突破。同時，該模型可能接近正式發佈階段，預計將在激烈的AI市場競爭中保持技術領先。

【AiBase提要:】
🧠 新模型Claude Opus 4. 1 主打問題解決能力，強化邏輯推理與複雜任務處理。
豹子命名暗示模型具備更快響應速度和精準分析能力，預示架構創新。
內測版本v2-02-prod表明模型已進入生產環境測試階段，接近正式發佈。

6、搭載 GLM-4.5！智譜推出 Zread.ai 開發效率工具，更快理解代碼與生成文檔

Zread.ai 是一款基於大語言模型的開發效率工具，旨在幫助開發者快速掌握項目結構、生成技術文檔，並提升團隊協作效率。其核心功能包括代碼理解、知識生成和團隊協作，利用 GLM-4.5 模型實現高效的代碼分析和文檔生成。

【AiBase提要:】
💡 Zread.ai 提供一站式代碼理解與文檔生成服務，幫助開發者快速掌握項目結構。
📚 自動生成項目導讀，涵蓋架構解析、模塊說明等內容，提升文檔撰寫效率。
🔍 背後採用 GLM-4.5 模型，具有出色的代碼理解能力和低誤判率，支持深入技術問答。

7、xAI 發佈 Grok Imagine4:支持文生圖與視頻生成，開放 NSFW 內容創作

xAI推出的Grok Imagine4 在文生圖和圖生視頻方面表現出色，尤其以快速的生成速度和原生支持NSFW內容爲亮點，但視頻效果仍有提升空間。

【AiBase提要:】
🎨 文生圖功能生成速度快，接近實時瀏覽體驗。
🎬 圖生視頻效率高，但畫面細節和流暢性有待優化。
🌶️ 原生支持NSFW內容生成，引發倫理討論。

8、阿里巴巴與南開大學攜手推出視頻大模型新型壓縮技術LLaVA-Scissor

LLaVA-Scissor 是一種創新的視頻大模型壓縮方法，由阿里巴巴通義實驗室與南開大學計算機科學學院聯合開發。該技術通過基於圖論的SCC算法有效減少token數量，同時保留關鍵語義信息，顯著提升了視頻處理效率，並在多個視頻理解基準測試中表現出色。

【AiBase提要:】
🌟 LLaVA-Scissor 是一種新型視頻大模型壓縮技術，旨在解決傳統方法中token數量激增的問題。
🔍 SCC 方法通過計算token相似性，構建圖並識別連通分量，從而減少token數量並保留關鍵語義信息。
🏆 LLaVA-Scissor 在低token保留率下展現出顯著性能優勢，尤其在視頻問答和長視頻理解任務中表現優異。

9、北京團隊突破！全球首個人形機器人3D視覺系統誕生，多傳感器融合技術領跑世界

文章介紹了北京人形機器人創新中心推出的Humanoid Occupancy視覺感知系統，該系統通過語義佔用表徵技術實現了對三維空間的精準建模和多傳感器數據的高效融合，解決了人形機器人在複雜環境中的感知難題。