歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解https://top.aibase.com/

1、阿里新發布Qwen3-4B模型:小巧強勁,手機也能跑 AI!

阿里通義千問團隊推出的Qwen3-4B系列模型,在小型語言模型領域取得了重要突破,爲移動端AI應用提供了新的技術路徑。該模型不僅在性能上表現出色,還具備高效的資源利用能力,能夠滿足實際應用場景的需求。

微信截圖_20250807090216.png

【AiBase提要:】

🧠 Qwen3-4B系列模型在性能與體積之間實現了平衡優化,適合移動設備運行。

📊 Qwen3-4B-Instruct-2507超越了閉源小型模型GPT-4.1-nano的表現,接近大規模模型Qwen3-30B-A3B的能力。

🧮 Qwen3-4B-Thinking-2507在數學推理評測中獲得高分,展現了強大的邏輯推理能力。

2、小紅書發佈開源多模態大模型 dots.vlm1,以 NaViT 視覺編碼器領跑行業

小紅書 Hi Lab 發佈開源多模態大模型 dots.vlm1,其基於 NaViT 視覺編碼器和 DeepSeek V3 大語言模型,展現出卓越的性能,尤其在圖表推理、STEM 數學推理等方面表現突出,標誌着開源多模態模型達到新高度。

QQ20250807-142938.png

【AiBase提要:】

🧠 原生自研的 NaViT 視覺編碼器,支持動態分辨率,提升泛化能力。

📊 構建了大規模清洗精細的訓練集,提升圖文對齊質量。

🚀 在多模態評測中表現優異,接近閉源模型 Gemini2.5Pro 和 Seed-VL1.5。

3、MiniMax Speech 2.5語音生成模型上線:多語種表現力更強

MiniMax推出了新一代語音生成模型Speech2.5,其在多語種表現力、音色復刻和語種覆蓋範圍等方面實現了顯著提升。該模型不僅在中文方面保持全球最強水平,同時英文及其他多語種的表現也得到全面提升,爲多個行業帶來了便利和創新機會。


image.png

【AiBase提要:】

🧠 Speech2.5在多語種表現力上取得飛躍性進步,支持40種語言切換。

🎙️ 音色復刻達到行業天花板級精度,可保留不同地區的口音特色。

🌐 多語種覆蓋範圍擴展至40個語種,包括多種新增語言,助力全球化內容創作。

4、Midjourney 推出 HD 視頻模式,專爲專業人士打造高品質影像

Midjourney 推出全新的 HD 視頻模式,爲專業用戶提供更高清、更高質量的視頻生成工具。該模式在分辨率和清晰度上顯著提升,但成本也相應增加。此功能進一步鞏固了 Midjourney 在 AI 視頻生成領域的競爭力。

【AiBase提要:】

🎥 HD 視頻模式提供更高的像素分辨率,滿足專業用戶對高質量影像的需求。

💰 HD 模式成本約爲 SD 模式的 3.2 倍,但能帶來更優質的視覺效果。

🚀 Midjourney 通過不斷優化技術,與 OpenAI 的 Sora 和 Runway 的 Gen-4 等競爭者展開激烈角逐。

5、Cursor1.4正式發佈:聚焦異步長程任務,加速大型代碼庫自動化進程

Cursor1.4版本的發佈標誌着其在AI驅動開發工具領域的進一步領先。該版本增強了異步和長程任務處理能力,優化了大型代碼庫的索引與搜索功能,並推動了AI編碼工具向全自動化的轉型。


image.png

【AiBase提要:】

🚀 異步任務處理能力顯著提升,支持後臺Agent運行並實現任務隊列管理。

🔍 針對大型代碼庫進行了精準優化,提升了代碼補全和查詢效率。

🔄 推動AI編碼工具向全自動化的轉型,增強Agent自主性及協作功能。

詳情鏈接:https://cursor.com/en/changelog

6、谷歌否認AI搜索功能影響網站流量,但數據顯示零點擊搜索激增

谷歌反駁了關於AI搜索功能對網站流量造成衝擊的指控,聲稱自然點擊量保持穩定且點擊質量有所提升。然而,數據表明零點擊搜索比例顯著增加,顯示用戶行爲正在發生轉變。


image.png

【AiBase提要:】

🟢 谷歌聲稱AI搜索功能未顯著影響網站流量,但零點擊搜索比例上升。

🟡 谷歌強調點擊質量提高,但未提供具體數據支持其結論。

🔴 用戶趨勢轉向其他平臺,如Reddit和TikTok,導致谷歌流量變化。

7、MiniCPM-V4.0開源發佈,堪稱“手機上的 GPT-4V”

MiniCPM-V4.0作爲一款輕量級多模態大模型,憑藉卓越的性能和優化設計,在圖像、視頻理解和多輪對話等任務中表現出色。其在移動設備上的高效運行能力,爲AI應用提供了新的可能性。

【AiBase提要:】

🔥 MiniCPM-V4.0基於SigLIP2-400M和MiniCPM4-3B構建,參數量僅爲4.1B,卻展現出強大的圖像、視頻理解能力。

🚀 在iPhone16Pro Max上實測,首次響應延遲不到2秒,解碼速度超過17token/秒,具備高併發處理能力。

🌐 提供豐富的生態支持,兼容主流框架,並提供iOS應用及詳細教程,降低開發者使用門檻。

詳情鏈接:https://github.com/OpenBMB/MiniCPM-o

8、AMD、高通宣佈旗下硬件支持 gpt-oss 系列開放模型

AMD與高通聯合宣佈支持OpenAI的gpt-oss系列模型,標誌着邊緣計算和AI結合的重要進展。銳龍AI Max+395處理器成爲首款運行gpt-oss-120b的消費級AI PC處理器,而高通驍龍平臺展示了gpt-oss-20b的出色推理能力。

【AiBase提要:】

🧠 AMD與高通宣佈支持OpenAI的gpt-oss系列模型,推動邊緣計算與AI結合。

🚀 銳龍AI Max+395處理器成爲全球首款運行gpt-oss-120b的消費級AI PC處理器。

📱 高通驍龍平臺展示gpt-oss-20b的優秀推理能力,開發者可輕鬆訪問模型。

9、騰訊重磅開源WeKnora!解鎖複雜文檔智能解析,知識管理進入AI新時代

騰訊開源的WeKnora是一款基於大語言模型的文檔理解與檢索工具,能夠處理多模態文檔並提供高效的結構化內容提取和智能交互功能。其模塊化設計和強大的語義處理能力爲多個行業帶來了技術革新。

image.png

【AiBase提要:】

🧠 WeKnora支持多模態文檔解析,可從PDF、Word、圖片等格式中提取結構化內容。

💬 基於大語言模型的智能交互功能,支持多輪對話和自然語言查詢。

📦 模塊化架構設計,便於靈活配置和擴展,適配不同行業需求。

詳情鏈接:https://github.com/Tencent/WeKnora

11、重磅!OpenAI 旗艦模型 GPT-5詳細信息疑似在 GitHub 上提前泄露

在全球科技界對 OpenAI 即將發佈的 GPT- 5 翹首以盼之際,一份疑似該模型的詳細說明信息在 GitHub Models 平臺上意外曝光。

QQ20250807-135831.png

【AiBase提要:】

🚀 GPT-5被描述爲OpenAI最先進的大語言模型,具有強大的推理能力和代碼質量。

🧩 GPT-5將推出多個版本,以滿足不同用戶和場景的需求。

🌐 泄露信息的真實性引發廣泛關注,開發者期待官方確認GPT-5的技術細節。

12、FlowSpeech:全球首個書面語轉口語的 TTS

FlowSpeech是一款創新的AI文本轉語音工具,能夠將書面文字轉化爲自然流暢的口語表達。它通過上下文感知和多模態支持技術,解決了傳統TTS工具在語調變化和情感表達上的不足,爲用戶提供更貼近真實對話的語音體驗。

image.png

【AiBase提要:】

🌍 FlowSpeech專注於書面語向口語的轉換,提升語音合成的自然性。

💡 智能內容篩選功能可自動識別並剪裁不適合朗讀的內容,提高語音質量。

🚀 開發團隊計劃推出個性化聲音定製服務,拓展應用邊界。

詳情鏈接:https://listenhub.ai/zh?tab=flowspeech