AI日報：阿里新發布Qwen3-4B模型；小紅書發佈開源模型dots.vlm1；MiniMax Speech 2.5語音生成模型上線

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://top.aibase.com/

1、阿里新發布Qwen3-4B模型：小巧強勁，手機也能跑 AI！

阿里通義千問團隊推出的Qwen3-4B系列模型，在小型語言模型領域取得了重要突破，爲移動端AI應用提供了新的技術路徑。該模型不僅在性能上表現出色，還具備高效的資源利用能力，能夠滿足實際應用場景的需求。

微信截圖_20250807090216.png

【AiBase提要:】
🧠 Qwen3-4B系列模型在性能與體積之間實現了平衡優化，適合移動設備運行。
📊 Qwen3-4B-Instruct-2507超越了閉源小型模型GPT-4.1-nano的表現，接近大規模模型Qwen3-30B-A3B的能力。
🧮 Qwen3-4B-Thinking-2507在數學推理評測中獲得高分，展現了強大的邏輯推理能力。

2、小紅書發佈開源多模態大模型 dots.vlm1，以 NaViT 視覺編碼器領跑行業

小紅書 Hi Lab 發佈開源多模態大模型 dots.vlm1，其基於 NaViT 視覺編碼器和 DeepSeek V3 大語言模型，展現出卓越的性能，尤其在圖表推理、STEM 數學推理等方面表現突出，標誌着開源多模態模型達到新高度。

【AiBase提要:】
🧠 原生自研的 NaViT 視覺編碼器，支持動態分辨率，提升泛化能力。
📊 構建了大規模清洗精細的訓練集，提升圖文對齊質量。
🚀 在多模態評測中表現優異，接近閉源模型 Gemini2.5Pro 和 Seed-VL1.5。

3、MiniMax Speech 2.5語音生成模型上線：多語種表現力更強

MiniMax推出了新一代語音生成模型Speech2.5，其在多語種表現力、音色復刻和語種覆蓋範圍等方面實現了顯著提升。該模型不僅在中文方面保持全球最強水平，同時英文及其他多語種的表現也得到全面提升，爲多個行業帶來了便利和創新機會。

【AiBase提要:】
🧠 Speech2.5在多語種表現力上取得飛躍性進步，支持40種語言切換。
🎙️ 音色復刻達到行業天花板級精度，可保留不同地區的口音特色。
🌐 多語種覆蓋範圍擴展至40個語種，包括多種新增語言，助力全球化內容創作。

4、Midjourney 推出 HD 視頻模式，專爲專業人士打造高品質影像

Midjourney 推出全新的 HD 視頻模式，爲專業用戶提供更高清、更高質量的視頻生成工具。該模式在分辨率和清晰度上顯著提升，但成本也相應增加。此功能進一步鞏固了 Midjourney 在 AI 視頻生成領域的競爭力。

【AiBase提要:】
🎥 HD 視頻模式提供更高的像素分辨率，滿足專業用戶對高質量影像的需求。
💰 HD 模式成本約爲 SD 模式的 3.2 倍，但能帶來更優質的視覺效果。
🚀 Midjourney 通過不斷優化技術，與 OpenAI 的 Sora 和 Runway 的 Gen-4 等競爭者展開激烈角逐。

5、Cursor1.4正式發佈:聚焦異步長程任務，加速大型代碼庫自動化進程

Cursor1.4版本的發佈標誌着其在AI驅動開發工具領域的進一步領先。該版本增強了異步和長程任務處理能力，優化了大型代碼庫的索引與搜索功能，並推動了AI編碼工具向全自動化的轉型。

【AiBase提要:】
🚀 異步任務處理能力顯著提升，支持後臺Agent運行並實現任務隊列管理。
🔍 針對大型代碼庫進行了精準優化，提升了代碼補全和查詢效率。
🔄 推動AI編碼工具向全自動化的轉型，增強Agent自主性及協作功能。
詳情鏈接:https://cursor.com/en/changelog

6、谷歌否認AI搜索功能影響網站流量，但數據顯示零點擊搜索激增

谷歌反駁了關於AI搜索功能對網站流量造成衝擊的指控，聲稱自然點擊量保持穩定且點擊質量有所提升。然而，數據表明零點擊搜索比例顯著增加，顯示用戶行爲正在發生轉變。

【AiBase提要:】
🟢 谷歌聲稱AI搜索功能未顯著影響網站流量，但零點擊搜索比例上升。
🟡 谷歌強調點擊質量提高，但未提供具體數據支持其結論。
🔴 用戶趨勢轉向其他平臺，如Reddit和TikTok，導致谷歌流量變化。

7、MiniCPM-V4.0開源發佈，堪稱“手機上的 GPT-4V”

MiniCPM-V4.0作爲一款輕量級多模態大模型，憑藉卓越的性能和優化設計，在圖像、視頻理解和多輪對話等任務中表現出色。其在移動設備上的高效運行能力，爲AI應用提供了新的可能性。

【AiBase提要:】
🔥 MiniCPM-V4.0基於SigLIP2-400M和MiniCPM4-3B構建，參數量僅爲4.1B，卻展現出強大的圖像、視頻理解能力。
🚀 在iPhone16Pro Max上實測，首次響應延遲不到2秒，解碼速度超過17token/秒，具備高併發處理能力。
🌐 提供豐富的生態支持，兼容主流框架，並提供iOS應用及詳細教程，降低開發者使用門檻。
詳情鏈接:https://github.com/OpenBMB/MiniCPM-o

8、AMD、高通宣佈旗下硬件支持 gpt-oss 系列開放模型

AMD與高通聯合宣佈支持OpenAI的gpt-oss系列模型，標誌着邊緣計算和AI結合的重要進展。銳龍AI Max+395處理器成爲首款運行gpt-oss-120b的消費級AI PC處理器，而高通驍龍平臺展示了gpt-oss-20b的出色推理能力。

【AiBase提要:】
🧠 AMD與高通宣佈支持OpenAI的gpt-oss系列模型，推動邊緣計算與AI結合。
🚀 銳龍AI Max+395處理器成爲全球首款運行gpt-oss-120b的消費級AI PC處理器。
📱 高通驍龍平臺展示gpt-oss-20b的優秀推理能力，開發者可輕鬆訪問模型。

9、騰訊重磅開源WeKnora！解鎖複雜文檔智能解析，知識管理進入AI新時代

騰訊開源的WeKnora是一款基於大語言模型的文檔理解與檢索工具，能夠處理多模態文檔並提供高效的結構化內容提取和智能交互功能。其模塊化設計和強大的語義處理能力爲多個行業帶來了技術革新。

【AiBase提要:】
🧠 WeKnora支持多模態文檔解析，可從PDF、Word、圖片等格式中提取結構化內容。
💬 基於大語言模型的智能交互功能，支持多輪對話和自然語言查詢。
📦 模塊化架構設計，便於靈活配置和擴展，適配不同行業需求。
詳情鏈接:https://github.com/Tencent/WeKnora

11、重磅!OpenAI 旗艦模型 GPT-5詳細信息疑似在 GitHub 上提前泄露

在全球科技界對 OpenAI 即將發佈的 GPT- 5 翹首以盼之際，一份疑似該模型的詳細說明信息在 GitHub Models 平臺上意外曝光。

【AiBase提要:】
🚀 GPT-5被描述爲OpenAI最先進的大語言模型，具有強大的推理能力和代碼質量。
🧩 GPT-5將推出多個版本，以滿足不同用戶和場景的需求。
🌐 泄露信息的真實性引發廣泛關注，開發者期待官方確認GPT-5的技術細節。

12、FlowSpeech：全球首個書面語轉口語的 TTS

FlowSpeech是一款創新的AI文本轉語音工具，能夠將書面文字轉化爲自然流暢的口語表達。它通過上下文感知和多模態支持技術，解決了傳統TTS工具在語調變化和情感表達上的不足，爲用戶提供更貼近真實對話的語音體驗。

【AiBase提要:】
🌍 FlowSpeech專注於書面語向口語的轉換，提升語音合成的自然性。
💡 智能內容篩選功能可自動識別並剪裁不適合朗讀的內容，提高語音質量。
🚀 開發團隊計劃推出個性化聲音定製服務，拓展應用邊界。
詳情鏈接:https://listenhub.ai/zh?tab=flowspeech

AI日報：阿里新發布Qwen3-4B模型；小紅書發佈開源模型dots.vlm1；MiniMax Speech 2.5語音生成模型上線

相關推薦

15 歲少年利用AI實施勒索攻擊，致知名平臺全站停服

騰訊混元Hy3發佈：Agent能力和產品體驗躍升

8 小時追平、 2 天反超：面壁智能 ForgeTrain 如何用 AI“鍛造”下一代訓練框架？

全球首例AI智能體勒索攻擊浮出水面：無需人類干預的自動化“作案”鏈條

百年超導競賽迎來AI破局： 28 小時精準篩選，鎖定四種全新材料