【AI日報】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野の注目コンテンツをお届けし、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。

新鮮なAI製品クリックして詳細を確認https://app.aibase.com/zh

1、快手がAI動画制作アシスタント「Kwali」をリリース、一言で短編動画を作成!

快手がリリースしたKwali AI動画制作アシスタントは、クラウド上の多エージェントフレームワークを活用して、動画制作プロセスを簡素化しています。ユーザーが要望を入力すると、Kwaliは自動的に特徴ポイント、ターゲット層、状況タグを分解し、スクリプトを作成し、カットをマッチングし、編集と合成を行い、効率を大幅に向上させます。

image.png

【AiBase要約:】

🌟 Kwaliは快手がリリースしたAI動画制作アシスタントで、高品質なショートビデオを迅速に生成します。

🎬 多エージェントシステムはスクリプト、素材、編集を自動処理し、動画制作の効率を向上させます。

💰 動画制作コストを下げ、商売は市場に早く出店し、資金回収を促進します。

詳細リンク:https://kc.kuaishou.com/kwali

2、字節跳動がUSOモデルをリリース、AI画像生成における「スタイルとテーマ」の対立を打ち破る

字節跳動がリリースしたUSOモデルは、スタイル駆動型とテーマ駆動型の画像生成の矛盾を成功裏に解決しました。イノベーティブなトレーニング方法と膨大なデータセットを通じて、画像生成の柔軟性と正確性を向上させました。このモデルは全面的にオープンソースであり、デジタルアートやビジネスデザインに新たな可能性をもたらしました。

image.png

【AiBase要約:】

🎨 USOモデルはスタイルとテーマの対立を打ち破り、両方を完璧に組み合わせました。

📊 USOモデルはイノベーティブなトレーニング方法と膨大なデータセットを使用し、画像生成の柔軟性と正確性を向上させました。

🌍 USOは全面的にオープンソース化され、開発者がクリエイティブなコンテンツやビジネスデザインでの応用を探求することを奨励しています。

詳細リンク:https://github.com/bytedance/USO

3、マイクロソフトが新しいCopilot Audio音声モードをリリース、より個性的な音声インタラクションを体験

マイクロソフトが新しいCopilot Audio音声モードをリリースしました。このモードは自社開発のMAI-Voice-1モデルに基づいており、感情、物語、スクリプトの3つの音声モードを提供し、さまざまなシナリオにおける表現ニーズに対応します。また、豊富な声とスタイルの選択肢を提供し、ユーザーのインタラクション体験を強化します。さらに、マイクロソフトはMAI-1モデルをリリースし、Officeアプリケーションに統合することで、AI分野における独立した発展をさらに推進しました。

image.png

【AiBase要約:】

🎭 新しいCopilot Audio音声モードは感情、物語、スクリプトの3つの音声モードをサポートし、さまざまなシナリオのニーズに対応します。

🎙️ 豊富な声とスタイルの選択肢があり、例えばシャイロックの朗読やスポーツ解説など、インタラクションの楽しさを高めます。

🔍 マイクロソフトはMAI-1モデルをリリースし、Officeアプリケーションに統合することで、AI分野において独立した発展の決意を示しています。

詳細リンク:https://copilot.microsoft.com/labs/audio-expression

4、Stability AIがStable Audio2.5をリリース、専門的な音声生成技術が更に進化

Stability AIは最新の音声生成モデルStable Audio2.5をリリースしました。このモデルは、高品質でカスタマイズ可能な音声作品を高速に生成でき、複雑な音楽創作をサポートし、音声修復機能を導入しました。また、WPPと提携し、一貫したブランド音声認識サービスの提供を目指しています。

image.png

【AiBase要約:】

🎵 新しいモデルStable Audio2.5は複雑な音楽作品を生成でき、最長3分間の音軌を高速に生成できます。

🖌️ 音声修復機能を導入し、ユーザーは音声ファイルをアップロードし、AIが録音を完了または拡張できるようにします。

🤝 Stability AIはWPPなどの大規模顧客と提携し、一貫したブランド音声認識サービスの提供を目指しています。

5、アラブ首長国連邦が世界最速のオープンソースAIモデルK2 Thinkをリリース、パラメータ数は320億

K2Thinkはアラブ首長国連邦のムハンマド・ベン・ザイドAI大学とG42AIによって共同でリリースされたオープンソースの大規模言語モデルで、320億のパラメータと1秒間に2000トークンを生成する速度で有名です。複雑な数学、プログラミング、科学のベンチマークテストで優れた性能を発揮し、効率的な推論設計を採用しており、少ない計算リソースでも優れた性能を実現できます。さらに、K2Thinkは完全なトレーニングデータ、モデル重み、および配置インフラストラクチャを提供し、商業応用をサポートし、アラブ首長国連邦がグローバルAI分野での影響力を増す象徴とされています。

image.png

【AiBase要約:】

🧠 K2Thinkはアラブ首長国連邦がリリースした世界最速のオープンソースAIモデルで、パラメータ数は320億です。

⚡ 1秒間に2000トークンを生成でき、他のモデルよりもはるかに高速です。

🚀 このモデルは複雑な推論に焦点を当てており、設計上効率的でオープンで、広範な商業応用をサポートしています。

詳細リンク:https://www.k2think.ai/guest

6、WeChat公式アカウントにスマート返信機能が登場:デジタルダブルが7*24時間対応

WeChat公式アカウントにスマート返信機能が登場し、人工知能技術を活用して運営者に効率的で個別化された相互作用サービスを提供し、ユーザー体験と公式アカウントの運営効率を向上させています。

image.png

【AiBase要約:】

🤖 公式アカウントの運営者は簡単にスマート返信機能を起動でき、相互作用効率を向上させられます。

💡 デジタルダブルは過去の記事や言語スタイルを学習し、個別化された返信を提供できます。

🌐 スマート返信は7*24時間オンラインに対応し、ユーザーの関与度と相互作用体験を強化します。

7、OpenAIがChatGPT開発者モードをリリース:AIが外部ツールを直接制御可能に

OpenAIがリリースしたChatGPT開発者モードは、AIアシスタントが会話ツールから自動化代理への重要な転換を示しています。AIが外部ツールを直接制御し、開発効率と安全性を向上させます。

image.png

【AiBase要約:】

🧠 ChatGPT開発者モードは初めてAIが外部ツールを直接制御できるようにし、自動化代理機能を実現します。

🔧 開発者はカスタムコネクタを作成し、ChatGPTが書き込み操作や複雑なタスクを実行できるようにします。

🔒 機能には多段階のセキュリティ保護措置が含まれており、操作の正確性と安全性を確保します。

詳細リンク:https://platform.openai.com/docs/mcp https://platform.openai.com/docs/guides/developer-mode

8、字節のSeedが新規AgentGym-RLフレームワークをリリース:大規模言語モデルの意思決定能力を向上

記事では、字節のSeed研究チームがリリースしたAgentGym-RLフレームワークについて紹介しています。このフレームワークは、強化学習を通じて大規模言語モデルのエージェントを訓練することに焦点を当てており、複数ラウンドの相互作用意思決定を行うことができます。同時に、彼らはScalingInter-RLというトレーニング方法を提案し、エージェントの学習効果を最適化しました。実験結果によると、AgentGym-RLフレームワークは複数のタスクで商業モデルを上回り、トップレベルの専有大規模モデルと同等の能力を持っています。

image.png

【AiBase要約:】

🌐 AgentGym-RLフレームワークは、強化学習により大規模言語モデルエージェントを訓練する新しい方法を提供し、複雑なタスクにおける意思決定能力を向上させます。

🔄 ScalingInter-RLトレーニング方法は、段階的な相互作用調整を通じて、エージェントがトレーニング中に効果的な探索と利用のバランスを実現します。

🏆 実験結果によると、AgentGym-RLフレームワークはエージェントのパフォーマンスを顕著に向上させ、複数の商業モデルを上回り、トップクラスの専有大規模モデルと同等の能力を持つことが確認されました。

詳細リンク:https://agentgym-rl.github.io/

9、衝撃的!月之暗面が革命的なミドルウェア「Checkpoint Engine」を開源、LLM推論エンジンに新生機をもたらす!

月之暗面が開源した「Checkpoint Engine」ミドルウェアは、大規模言語モデル(LLM)推論エンジンのために設計されており、効率的なオンサイト熱更新を実現しました。その性能は優れ、1兆パラメータモデルの重み同期を20秒以内に完了し、数千のGPU並列処理をサポートし、ダウンタイムを大幅に短縮し、トレーニング効率を向上させました。

image.png

【AiBase要約:】

🚀 Checkpoint EngineはLLM推論エンジンにおけるモデル重みの効率的なリアルタイム更新を実現しました。

⚡ 数千のGPU並列処理をサポートし、強化学習トレーニング中のダウンタイムを大幅に短縮します。

🌐 オープン設計により、今後他のフレームワーク(例:SGLang)への拡張が可能となり、技術の進歩を推進します。

10、Bilibiliがテキストから音声変換モデルIndexTTS-2.0をオープンソース化、感情と長さを制御可能

Bilibiliが独自開発したテキストから音声変換システムIndexTTS-2.0をオープンソース化しました。このシステムは感情制御と長さ調節が可能で、ゼロサンプルTTS技術の実用化にとって重要な一歩を踏み出しました。時間コードメカニズムの導入と音色と感情の分離モデリングにより、音声合成の自然さと表現力を向上させ、AIボイスオーバー、オーディオブック、動画翻訳等多个のシナリオで広く応用されています。

image.png

【AiBase要約:】

🕒 時間コードメカニズムの導入により、音声の長さ制御精度が向上しました。

🎭 音色と感情の分離モデリングにより、音声の表現力が強化されました。