AI日報：SD 3オープンソース化発表；中国語音声AI最高峰ChatTTS公式サイト上线；Veoが単一画像からの動画生成に対応；ElevenLabsが多様なAI音声モデルを発表

【AI日報】へようこそ！ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら：https://top.aibase.com/

1、抖音：AI技術を使った画像加工による他者への侮辱行為などを取り締まる

抖音は、ネット暴力行為を厳しく取り締まることを発表しました。既に162件のネット暴力に関する世論を処理し、加害者約70万人に警告教育を行いました。ネット暴力の通報受付窓口を設け、ワンクリックでネット暴力から身を守る機能を提供し、ユーザーの安全を守ります。ユーザーは、自身の権利を守るために法律相談サービスを申請できます。

【AiBase要約:】
🚫 ネット暴力行為を厳しく取り締まり、162件のネット暴力に関する世論を処理し、加害者約70万人に警告教育を実施
🔒 ネット暴力に関する情報提供窓口を設け、公安機関と協力して違法行為を取り締まる
🛡 ワンクリックでネット暴力から身を守る機能を提供し、ユーザーは法律相談サービスを利用して権利を守ることができる

2、Stability AIがSD 3をオープンソース化：6月12日ダウンロード可能、商用利用不可

Stability AIがStable Diffusion 3 Mediumの公開日を6月12日と発表したことに興奮しています。20億パラメーターのSD 3 Mediumモデルは、写真のようなリアリティ、優れたレイアウト、高性能を備えており、消費者向けシステムと企業のワークロードに適しています。Stable Diffusion 3 MediumはStability AIが最近発表した製品で、ユーザーにより安定した効率的な使用体験を提供すると予想されます。

【AiBase要約:】
⭐️ 写真のようなリアリティ：手や顔の一般的なアーティファクトを克服し、複雑なワークフローなしで高品質な画像を提供します。
⭐️ 優れたレイアウト：より大きな最先端モデルよりも優れたレイアウト結果を得られます。
⭐️ 高性能：サイズと効率が最適化されており、消費者向けシステムと企業のワークロードに最適です。
詳細リンク:https://stability.ai/stablediffusion3

3、NVIDIAがデジタルヒューマンAI技術NVIDIA ACEを発表、キャラクターとのインタラクション体験を向上

NVIDIAは最近、ゲームや仮想世界におけるキャラクターとのインタラクション体験を向上させることを目的とした、Avatar Cloud Engine（ACE）という高度なデジタルヒューマンAI技術を発表しました。この技術は、ゲーム内のNPCにインテリジェントな会話能力を与え、自然でインテリジェントなコミュニケーションを実現し、キャラクターの生き生きとしたリアルさを高めます。ACE技術はクラウドまたはローカルデバイスに柔軟に展開でき、スムーズで高品質なインタラクション体験を保証すると同時に、ニューラルネットワークを最適化して遅延を削減し、リアルタイムのインタラクションを確保します。この技術は、ゲーム開発や仮想現実分野に革命的な変化をもたらし、顧客サービス、教育、エンターテインメント分野にも拡大し、より自然でインテリジェントな表現を提供すると期待されています。

【AiBase要約:】
🗨️ インテリジェントな会話能力：ACE技術はゲームNPCにリアルな会話能力を与え、事前に設定されたセリフの模式を超えます。
🎤 音声と顔のアニメーション生成：ACEはAI技術を利用してリアルな応答を生成し、キャラクターの生き生きとしたリアルさを高めます。
🚀 柔軟な展開と低遅延：ACEはクラウドまたはローカルデバイスに展開でき、スムーズで高品質なインタラクション体験を保証し、遅延の影響を軽減します。

4、Claude 3全シリーズが関数呼び出しツールTool useに対応

Claude 3は現在、関数呼び出しツールTool useに対応しており、外部ツールやAPIと連携して、より動的で正確な応答を提供できるようになりました。この技術の発展は、AIが作業効率の向上と革新的なサービス方法の提供において、大きな可能性を秘めていることを示しています。

【AiBase要約:】
🛠️ 非構造化テキストから構造化データを取り出し、手動入力の作業量を削減します。
🔍 自然言語の要求を構造化されたAPI呼び出しに変換し、セルフサービスのプロセスを簡素化します。
⏰ 会議時間の自動調整など、複数のClaudeサブエージェントを調整して詳細なタスクを実行します。
詳細リンク:https://docs.anthropic.com/en/docs/tool-use

5、NVIDIAがAIゲームアシスタントG-Assistを発表

G-AssistはNVIDIAのAIゲームアシスタントで、音声検索でゲームに関する質問に答え、プレイヤーにパーソナライズされたガイダンスを提供します。PCの設定を最適化し、ゲームのパフォーマンスに関する提案を行い、GPUのオーバークロックを行うことさえできます。Nvidiaが発表したG-Assistは、AIアシスタントの将来の可能性を示していますが、依然として慎重な姿勢が必要です。

【AiBase要約:】
⭐ G-AssistはNVIDIAのAIゲームアシスタントで、プレイヤーがゲームをクリアし、最適な設定を行うためのガイダンスを提供します。
⭐ このアシスタントは、音声検索でゲーム内の質問に答え、画面上の状況に応じてパーソナライズされたガイダンスを提供します。
⭐ PCの設定の最適化と調整を行うだけでなく、ゲームのパフォーマンスに関する提案を行い、GPUのオーバークロックを行うことさえできます。

6、DeepMindのビデオ生成モデルVeoは、単一の参照画像からビデオクリップを生成可能に

Google DeepMindのVeoモデルは、単一の参照画像からビデオクリップを生成し、テキストプロンプトで視覚スタイルを調整できる革新的なビデオ生成モデルです。このモデルは、クリエイティブ産業やビデオ制作分野に新たな可能性をもたらしますが、気が散らないように注意するようユーザーに促しています。

【AiBase要約:】
🔑 Veoモデルは、単一の参照画像からビデオクリップを生成し、視覚スタイルを調整できます。
🌟 アプリケーションには、実験的なツールVideoFXが含まれており、ユーザーはVeoモデルの一部機能を試すことができます。
💡 Veoモデルは、画像の内容とテキストプロンプトに基づいて、ユーザーの要求に沿ったビデオクリップを生成する可能性を秘めています。
詳細リンク:https://blog.google/technology/ai/google-labs-video-fx-generative-ai/

7、リリースと同時に大ヒット！中国語音声AIの最高峰ChatTTS公式サイトが公開

ChatTTSは、注目を集めている中国語音声AIプロジェクトで、リリース直後から大きな話題となっています。ユーザーはChatTTSを使用して、テキスト読み上げ、リアルタイム音声会話などの機能を利用でき、多言語対応や詳細な制御などの特徴も備えています。このプロジェクトは、ECライブコマース、ソーシャルメディア、オンライン教育、カスタマーサービスなど、さまざまなシーンに適しています。

【AiBase要約:】
🔊 テキスト読み上げ、リアルタイム音声会話機能
🎤 多言語対応と中国語と英語の混合表現
👥 多様な話者対応と大規模なトレーニングデータの活用
詳細リンク:https://chattts.com/

8、ControlNetの作者が新たなプロジェクトOmostを発表、短い文章で構成図を作成

Omostは革新的な画像生成プロジェクトで、簡単なプロンプトで詳細かつ正確な画像を生成し、画像記述のプロセスを大幅に簡素化します。ユーザーは簡単なプロンプトを入力するだけで、高品質で期待通りの画像を得ることができます。同時に、Omostはプロンプトの自動拡張、高い柔軟性、画像の位置エンコーディングなどの利点を備えており、画像生成に強力なツールサポートを提供します。

【AiBase要約：】
⭐ 短いプロンプトで非常に詳細で空間表現が正確な画像を生成できます
⭐ 高い柔軟性、画像レイアウトを維持し、1つのプロンプトで要素を変更できます
⭐ 詳細な説明を提供し、複雑な画像生成に対応し、AIイラスト、広告クリエイティブなどの分野で活用できます
プロジェクトページ:https://top.aibase.com/tool/omost
試用アドレス:https://huggingface.co/spaces/lllyasviel/Omost

9、ElevenLabsが革新的なAIオーディオモデルを発表

ElevenLabsは最近、テキストプロンプトから様々なサウンドエフェクト、短い楽器の楽曲、サウンドスケープ、キャラクターボイスを生成できる革新的なAIオーディオモデルを発表しました。コンテンツクリエイター、ビデオゲーム開発者、映画テレビ制作会社にとって大きな福音となります。この技術は、オーディオコンテンツの作成プロセスを大幅に簡素化し、作成効率を高め、創造性を広げます。

【AiBase要約:】
🔊 テキストからオーディオへの変換：ユーザーがテキストプロンプトを入力すると、AIが対応するサウンドエフェクトと音楽を生成します。
🎶 多様性：様々なサウンドエフェクトを生成し、様々なシーンのニーズに対応できます。
🎭 キャラクターボイスの生成：アニメーション、ゲーム、映画作品などの異なるキャラクターに独特の声を作成します。
詳細リンク:https://top.aibase.com/tool/elevenlabs-text-to-sound-effects

10、PixVerseがモーションブラシ機能Magic Brushを発表、Runwayよりも便利で直感的

PixVerseが最近発表したモーションブラシ機能Magic Brushは、製品の使いやすさとユーザーエクスペリエンスを大幅に向上させ、アニメーションやダイナミックな画像の作成に柔軟性と効率性をもたらします。ユーザーは手描き矢印を使用して、画像領域のモーションの方向と距離をカスタマイズし、より正確なダイナミックエフェクト制御を実現できます。操作は簡単で直感的で、複雑な学習曲線は必要なく、創造的な表現の幅と作業効率が向上します。

【AiBase要約:】
✨ モーションの方向と距離をカスタマイズし、ダイナミックエフェクトを正確に制御できます
🎨 操作は簡単で直感的で、ユーザーフレンドリーさと創造的な表現の幅が向上します
⏱️ アニメーション制作プロセスを簡素化し、作業効率と作成速度を向上させます
詳細リンク:https://top.aibase.com/tool/pixverse

11、NvidiaがGeForce RTX強化版を発表、AI PCデジタルアシスタントをサポート

NvidiaはComputexで新しいRTX技術を発表し、新しいGeForce RTX AIノートパソコンにパワーを提供すると同時に、Project G-Assist技術デモでPCゲームやアプリケーションにコンテキスト認識型のヘルプを提供します。さらに、Nvidia ACEデジタルキャラクタープラットフォームが初公開され、デジタルキャラクターをサポートします。これらの技術は、500以上のPCアプリケーションとゲーム、200以上のOEMノートパソコンのデザインを加速し、1億人を超えるRTX AI PCユーザーに次世代のAIパワー体験を提供します。

【AiBase要約:】
⭐ Nvidiaが新しいRTX技術を発表し、GeForce RTX AIノートパソコンにパワーを提供します
⭐ Project G-Assist技術デモは、PCゲームやアプリケーションにコンテキスト認識型のヘルプを提供します
⭐ Nvidia ACEデジタルキャラクタープラットフォームが初公開され、デジタルキャラクターをサポートします

12、マッキンゼー調査によると：生成AIアプリケーションは大中華圏で最も急速に成長

生成AIアプリケーションは大中華圏とアジア太平洋地域で急速に発展しており、回答者の65％が生成AIを頻繁に使用しており、既にビジネス価値を生み出し始めています。企業は、既成製品の使用、AIベンダーとの協力によるモデルの微調整、独自の製品開発の3つの方法で生成AIを主に適用しています。アプリケーションシナリオは、テキスト、コード、オーディオ、ビデオ、画像などの生成能力を主に含んでおり、マルチモーダル大規模モデルの登場に伴い、アプリケーションシナリオはさらに拡大するでしょう【AiBase要約:】

⚙️ 生成AIアプリケーションの成長：大中華圏とアジア太平洋地域が最も急速に成長している地域であり、ネイティブデジタル人口の頻繁な使用が主な理由です。
💼 企業のアプリケーション方法：既成製品の使用、AIベンダーとの協力によるモデルの微調整、独自の製品開発の3つの方法。
🔍 アプリケーションシナリオの拡大：生成AIの機能とアプリケーションシナリオが関連しており、テキスト、コード、オーディオ、ビデオ、画像などの生成能力が含まれ、マルチモーダル大規模モデルの登場に伴い、アプリケーションシナリオはさらに拡大するでしょう。

13、バイトダンス傘下のAIアシスタント豆包がPCクライアント版とブラウザープラグイン版を発表

バイトダンス傘下のAIアシスタント豆包は、PCクライアント版とブラウザープラグイン版を発表し、ユーザーにより便利なAI機能体験を提供します。ユーザーは豆包を使用して、高速な単語選択翻訳、AI検索、ワンクリックデスクトップ常駐などの機能を実現でき、Webページとビデオの要約、ライティング、テキスト修正などの機能もサポートしています。豆包のAI大規模モデルシリーズは、多様な機能モデルを網羅しており、ユーザーに包括的なAIアシスタントサービスを提供します。

【AiBase要約:】
🔍 豆包PCクライアント版は、高速な単語選択翻訳、AI検索、ワンクリックデスクトップ常駐などの機能をサポートしています
📚 プラグイン版は、Webページとビデオのワンクリック要約、ライティング、テキスト修正などの機能を提供しています
💡 豆包大規模モデルシリーズには、豆包汎用モデルPro、ロールプレイングモデル、音声合成モデルなどが含まれており、多様なAI機能を提供しています

14、サウジアラムコが中国のAIスタートアップ企業智譜AIに投資