AI日報：智譜發佈GLM-5V-Turbo多模態Coding大模型；Seedance 2.0 API正式全量開放；美團 LongCat-AudioDiT 開源

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://app.aibase.com/zh

1、智譜發佈 GLM-5V-Turbo 多模態 Coding 大模型

智譜發佈的GLM-5V-Turbo多模態Coding大模型，實現了視覺與編程能力的深度融合，支持多種視覺工具調用，並在多個核心基準測試中表現出色。該模型的應用場景包括前端復刻、GUI自主探索和交互式編輯，顯著提升了開發效率。同時，其接入AutoClaw智能體後，使該智能體具備了真正的視覺能力，能夠解讀複雜圖表並輸出專業分析報告。

【AiBase提要:】
🧠 多模態基座模型GLM-5V-Turbo發佈，實現視覺與編程能力的深度融合。
💻 支持前端復刻、GUI自主探索和交互式編輯，提升開發效率。
📊 AutoClaw智能體接入後，具備真正的視覺能力，可解讀複雜圖表並輸出分析報告。

2、字節火山引擎Seedance 2.0正式面向普通API客戶開放申請

字節跳動火山引擎正式開放Seedance 2.0 API服務，標誌着其多模態視頻生成模型從封閉體驗向開放生態轉型，爲開發者和企業提供更強大的視頻創作工具。

【AiBase提要:】
🎥 Seedance 2.0支持文字、圖片、音頻和視頻四種模態輸入，提升視頻生成的可控性。
💡 提供電影質感視頻生成，適用於短劇製作、電商營銷等場景。
🔒 強調版權保護，開放API需通過企業認證並接受內容審覈。

3、美團 LongCat-AudioDiT 開源:首創波形潛空間建模，刷新音色克隆 SOTA

美團 LongCat-AudioDiT 開源項目通過波形潛空間建模，實現了語音克隆性能的突破，其創新架構和優化技術顯著提升了語音生成的質量與穩定性。

【AiBase提要:】
🧠 創新性地採用波形潛空間建模，擺脫傳統梅爾頻譜中間表徵的限制。
🚀 通過 Wav-VAE 和 DiT 構建極簡架構，提升語音生成效率與質量。
🔧 引入雙重約束機制和自適應投影引導技術，解決音色漂移問題並優化生成效果。
詳情鏈接:https://github.com/meituan-longcat/LongCat-AudioDiT

4、日均消耗破 120 萬億！字節跳動豆包大模型成“流量王”：兩年狂漲 1000 倍

文章報道了字節跳動豆包大模型在 AI 應用方面的顯著進展，其日均 Token 使用量突破 120 萬億，展現了強大的 AI 滲透力。同時，國產大模型的調用量也在持續增長，並在部分領域超越了海外主流模型。雲廠商正在重新評估 Token 的商業價值，TokenHub 成爲新的競爭焦點。

【AiBase提要:】
🔥 豆包大模型日均 Token 使用量突破 120 萬億，展現強大的 AI 應用能力。
📈 國產大模型調用量持續增長，部分領域已超越海外主流模型。
🔄 雲廠商重估 Token 商業價值，TokenHub 成爲新戰場。

5、螞蟻數科DTClaw開啓內測:定位專業級AI智能體賽道

螞蟻數科正式宣佈旗下專業級龍蝦產品DTClaw開啓內測，標誌着該公司正式進軍專業AI智能體賽道。DTClaw精準定位爲“專業型”AI，旨在爲金融專家、理財顧問及數據分析師等深度專業人羣提供全天候在線的專屬AI智能體服務。技術層面，DTClaw強調“原生專家”屬性，集成了上百種專業技能，並預置了大量成熟的“熟蝦”模板，應用場景精準覆蓋投資理財、複雜數據分析、軟件研發及自動化測試等高價值領域。在AI智能體從“助理”向“專家”進化的行業趨勢下，螞蟻數科此舉顯示了其深耕垂直行業、實現AI生產力閉環的戰略意圖。

【AiBase提要:】
🧠 DTClaw定位爲專業級AI智能體，面向金融專家、理財顧問及數據分析師等深度專業人羣提供服務。
🔧 DTClaw集成上百種專業技能，預置大量“熟蝦”模板，覆蓋投資理財、複雜數據分析等高價值領域。
🚀 螞蟻數科通過DTClaw進軍專業AI智能體賽道，顯示其深耕垂直行業、實現AI生產力閉環的戰略意圖。

6、Anthropic 測試“龍蝦” Conway：支持獨立 UI、Webhook 喚醒與自定義擴展標準

Anthropic正在開發名爲Conway的常駐代理解決方案，旨在爲Claude打造一個始終在線、獨立運行的智能環境。Conway將擁有獨立的UI實例，支持瀏覽器操作、外部連接器連接以及Claude Code功能，同時通過Webhook實現自動化響應，並推出CNW ZIP標準以增強擴展性。

【AiBase提要:】
📱 獨立UI實例，突破傳統聊天界面限制
⚙️ 支持Webhook喚醒與外部服務連接
📦 推出CNW ZIP標準，構建自定義擴展生態

7、谷歌開源大模型 Gemma 4 官宣在即：參數量翻 4 倍

谷歌開源大模型Gemma 4即將發佈，其參數量達到120B，是上一代的4倍，並採用MoE架構以優化性能與效率。同時，谷歌通過開源項目保持在開發者社區的影響力，試圖在本地化服務中與中國公司競爭。

【AiBase提要:】
🧠 參數量翻4倍，Gemma 4將挑戰本地運行極限
🔄 採用MoE架構，兼顧性能與效率
🌍 開源賽道進入“參數與效率”雙拼時代

8、AI 編程進入“靠譜”時代：通義實驗室正式發佈 Qwen3.6-Plus

通義實驗室發佈 Qwen3.6-Plus，聚焦 Coding Agent 與長上下文，提升智能體編程的穩定性與執行效率，同時實現生態兼容與視覺智能體閉環。

【AiBase提要:】
🧠 編碼能力飛躍：在前端頁面生成、代碼修復及終端自動化場景中表現卓越。
🌐 百萬級上下文：默認支持 100萬字符上下文窗口，大幅提升長文檔解析與多輪對話的信息提取精度。
🛠️ 生態兼容：無縫集成主流開發工具，支持多種第三方編程助手的深度適配。

AI日報：智譜發佈GLM-5V-Turbo多模態Coding大模型；Seedance 2.0 API正式全量開放；美團 LongCat-AudioDiT 開源

相關推薦

智譜發佈 GLM-5V-Turbo：給 AI 智能體安上“火眼金睛”

智譜推出 GLM-5V-Turbo：爲 AI 編程安上“眼睛”，設計稿秒變代碼

智譜發佈 GLM-5V-Turbo 多模態 Coding 大模型

AI日報：Anthropic發佈Claude Opus 4.6；千問“春節大免單”首日火爆；騰訊推出“火龍漫劇”

「6月30日AI日報」百度開源文心大模型4.5系列；通義千問多模態生成模型Qwen VLo