ようこそ【AIニュース】のコーナーへ!ここは毎日人工智能世界を探索するためのガイドです。毎日、AI分野のホットな情報を紹介し、開発者に焦点を当て、技術トレンドを理解し、革新的なAI製品の応用を学びます。

新規のAI製品:クリックして詳細を確認https://app.aibase.com/zh

1. 智譜がGLM-5V-Turboというマルチモーダルコーディング大モデルを発表

智譜が発表したGLM-5V-Turboというマルチモーダルコーディング大モデルは、視覚とプログラミング能力の深い統合を実現しました。複数の視覚ツールの呼び出しをサポートし、多数の重要なベンチマークテストで優れた性能を示しています。このモデルの応用シーンには、フロントエンドの再構築、GUIの自主的な探索およびインタラクティブエディットが含まれており、開発効率を顕著に向上させます。また、AutoClawスマートエージェントに接続することで、本格的な視覚能力を持つようになり、複雑なグラフを解釈し、専門的な分析レポートを出力できます。

image.png

【AiBase要約:】

🧠 マルチモーダル基盤モデルGLM-5V-Turboのリリースにより、視覚とプログラミング能力の深く融合が実現されました。

💻 フロントエンドの再構築、GUIの自主的な探索、インタラクティブエディットをサポートし、開発効率を向上させます。

📊 AutoClawスマートエージェントに接続後、本格的な視覚能力を備え、複雑なグラフを解釈し、分析レポートを作成できるようになりました。

2. 字節バーチャルエンジンSeedance 2.0が一般APIユーザー向けに正式リリース

字節跳動のバーチャルエンジンは、Seedance 2.0 APIサービスを正式にリリースし、これによりマルチモーダルビデオ生成モデルが閉鎖的な体験からオープンなエコシステムへの転換を示し、開発者や企業にさらに強力なビデオ作成ツールを提供します。

image.png

【AiBase要約:】

🎥 Seedance 2.0はテキスト、画像、音声、ビデオの4つのモード入力をサポートし、ビデオ生成の制御性を向上させます。

💡 映画のような質感のビデオ生成を提供し、ショートドラマ制作やECマーケティングなどのシナリオに適しています。

🔒 クリエイティブ保護を強調し、APIの公開には企業認証とコンテンツ審査が必要です。

3. 美團のLongCat-AudioDiTを開源:波形潜空間モデリングを独創的に採用し、音色クローンSOTAを更新

美團のLongCat-AudioDiT開源プロジェクトは、波形潜空間モデリングによって音声クローンの性能を突破し、その独自のアーキテクチャと最適化技術により、音声生成の品質と安定性を大幅に向上させました。

image.png

【AiBase要約:】

🧠 波形潜空間モデリングを独創的に採用し、従来のメルスペクトログラムの間接表現に依存することなくなりました。

🚀 Wav-VAEとDiTを使って極限的なアーキテクチャを構築し、音声生成の効率と品質を向上させました。

🔧 二重制約機構と自己適応投影誘導技術を取り入れ、音色のずれ問題を解決し、生成効果を最適化しました。

詳細リンク:https://github.com/meituan-longcat/LongCat-AudioDiT

4. 日々のトークン使用量が120兆を突破!字節跳動のドウボーモデルは「流量王」となる:2年で1000倍成長

記事は、字節跳動のドウボーモデルがAIアプリケーションにおいて顕著な進展を遂げたことを報告しています。その日々のトークン使用量が120兆を突破し、強力なAI浸透力を示しています。同時に、国内の大規模モデルの呼び出し量も継続的に増加しており、一部の分野では海外主要モデルを上回っています。クラウドプロバイダーはトークンの商業価値を再評価しており、TokenHubは新たな競争の焦点となっています。

image.png

【AiBase要約:】

🔥 ドウボーモデルの日々のトークン使用量が120兆を突破し、強力なAI応用力を示しています。

📈 国内大規模モデルの呼び出し量は継続的に増加しており、一部の分野では海外主要モデルを上回っています。

🔄 クラウドプロバイダーはトークンの商業価値を再評価し、TokenHubが新たな戦場となっています。

5. アリババ数科DTClawの内部テスト開始:専門的なAIエージェントの道へ進出

アリババ数科は、専門的なロブスター製品であるDTClawの内部テストを正式に開始しました。これは同社が専門的なAIエージェントの道へ進出することを示しています。DTClawは「専門型」のAIとして明確に位置付けられており、金融専門家、財務アドバイザー、データアナリストなどの深度専門家のために24時間オンラインの専用AIエージェントサービスを提供します。技術面では、DTClawは「ネイティブエキスパート」属性を強調しており、何百もの専門スキルを統合し、大量の完成された「熟 lobster(ロブスター)」テンプレートを事前に搭載しており、投資・財務、複雑なデータ分析、ソフトウェア開発、自動テストなどの高価値領域に正確に対応しています。AIエージェントが「アシスタント」から「エキスパート」へ進化する業界のトレンドの中で、アリババ数科のこの行動は、垂直業界に深く入り込み、AI生産力の閉路を実現する戦略的意図を示しています。

image.png

【AiBase要約:】

🧠 DTClawは専門的なAIエージェントとして位置付けられ、金融専門家、財務アドバイザー、データアナリストなどの深度専門家にサービスを提供しています。

🔧 DTClawは何百もの専門スキルを統合し、大量の「熟 lobster(ロブスター)」テンプレートを事前に搭載しており、投資・財務、複雑なデータ分析など高価値領域に正確に対応しています。

🚀 アリババ数科はDTClawを通じて専門的なAIエージェントの道へ進出しており、垂直業界に深く入り込み、AI生産力の閉路を実現する戦略的意図を示しています。

6. Anthropicが「ロブスター」Conwayのテストを実施:独立UI、Webhook起動、カスタム拡張標準をサポート

Anthropicは、Claudeのために常にオンラインで動作し、独立して実行されるインテリジェントな環境を構築するための常駐代理ソリューションであるConwayの開発を進めています。Conwayは独立したUIインスタンスを持ち、ブラウザ操作、外部コネクタ接続、Claude Code機能をサポートし、Webhookにより自動レスポンスを実現し、CNW ZIP標準を導入して拡張性を強化します。

image.png

【AiBase要約:】

📱 独立したUIインスタンスにより、伝統的なチャットインターフェースの制限を突破しました。

⚙️ Webhookによる起動と外部サービスの接続をサポートしています。

📦 CNW ZIP標準を導入し、カスタム拡張エコシステムを構築しました。

7. グーグルがオープンソース大モデルGemma 4を宣伝:パラメータ数が4倍に

グーグルがオープンソース大モデルGemma 4が近日リリースされ、パラメータ数が120Bとなり、前世代の4倍となり、MoEアーキテクチャを使用してパフォーマンスと効率を最適化しています。同時に、グーグルはオープンソースプロジェクトを通じて開発者コミュニティでの影響力を維持し、ローカルサービスにおいて中国企業と競争しようとしています。

image.png

【AiBase要約:】

🧠 パラメータ数が4倍に増加し、Gemma 4はローカル実行の限界に挑戦します。

🔄 MoEアーキテクチャを採用し、パフォーマンスと効率の両方を考慮しています。

🌍 オープンソースの競争は「パラメータと効率」の両方を求める時代に入りました。

8. AIプログラミングが「信頼できる」時代に入った:通義研究所がQwen3.6-Plusを正式リリース

通義研究所はQwen3.6-Plusを正式リリースし、Coding Agentと長文対応に注力し、スマートエージェントのプログラミングの安定性と実行効率を向上させ、同時にエコシステムの互換性と視覚エージェントの閉路を実現しました。

image.png

【AiBase要約:】

🧠 コーディング能力の飛躍:フロントエンドページ生成、コード修正、端末自動化のシナリオで優れた性能を発揮しています。

🌐 百万文字級の文脈:通常100万文字の文脈窓をサポートし、長文解析と多輪会話の情報抽出精度を大幅に向上させます。

🛠️ エコシステムの互換性:主流の開発ツールにシームレスに統合し、複数のサードパーティプログラミングアシスタントとの深い適合性をサポートします。