【AI日報】へようこそ!ここは、あなたが毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットなニュースをお届けし、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、Googleへの挑戦状!OpenAIが検索エンジンSearchGPTを発表 初期は1万人限定のテスト

OpenAIは、人工知能を搭載した検索エンジンSearchGPTを発表しました。従来の検索エンジンとは異なり、検索結果を整理・要約します。現在、プロトタイプ段階で、GPT-4によってサポートされており、1万人のテストユーザーに公開されています。OpenAIはサードパーティと協力して検索結果を構築し、ChatGPTに検索機能を統合する計画です。

【AiBase要約:】

🔍 SearchGPTは、人工知能を搭載した検索エンジンで、検索結果を整理・要約します。

🚀 現在プロトタイプ段階で、GPT-4によってサポートされており、1万人のテストユーザーに公開されています。

💡 OpenAIは検索機能をChatGPTに直接統合し、Googleと競合する計画です。コンテンツの使用に関する協力と情報の帰属の明確性を重視しています。

詳細はこちら:https://chatgpt.com/search

2、智譜AIがAI動画生成製品「清影」を発表

智譜AIは、「清影(Ying)」というAI大規模モデルを発表しました。任意のテキストから動画を生成でき、ユーザーはテキストを入力してスタイルを選択するだけで、高精細な動画を生成できます。清影は清言Appで利用可能で、テキストから動画、画像から動画の生成をサポートしており、「写真を動かす」ミニプログラムも提供しています。CEOの張鵬氏は、清影の基盤となる動画生成モデルCogVideoXは、テキスト、時間、空間の3つの次元を融合し、推論速度を向上させたことを述べています。ユーザーは智譜清言PC/Appで清影を体験し、アイデアを芸術的な動画作品に変えることができます。

image.png

【AiBase要約:】

🎥 清影は、智譜AIが発表したAI大規模モデルで、高精細な動画を生成でき、テキストから動画、画像から動画の生成をサポートします。

💡 清影は新型DiTモデルアーキテクチャに基づいており、テキストと動画の内容を融合することで、指示の遵守能力と内容の一貫性を向上させています。

🚀 CogVideoXは清影の基盤となる動画生成モデルで、テキスト、時間、空間の3つの次元を融合し、推論速度を向上させています。将来的には、より高解像度で、より長い時間の動画生成機能を提供する予定です。

詳細はこちら:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu

3、バイトダンスが「豆包・画像生成モデル」を発表 豆包大規模モデルの1日あたりのトークン使用量が5000億を超える

火山引擎は成都で2024 AIイノベーション巡回展を開催し、豆包大規模モデルの1日あたりのトークン使用量が5000億を超え、顧客の1日あたりの使用量が22倍に増加したことを発表しました。張鑫副社長は、火山引擎が知能化、業界化、地域化の方向に進み、企業の事業革新を支援していると述べました。発表された豆包大規模モデルの最新機能には、ビジュアル画像、音声合成、音声再現などのアップグレードが含まれています。

【AiBase要約:】

🚀 豆包大規模モデルの1日あたりのトークン使用量が5000億を超え、顧客の1日あたりの使用量が22倍に増加しました。

🔍 豆包・画像生成モデルと豆包・テキスト生成モデルは、元の画像の特徴を維持し、画質を向上させる点で優れたパフォーマンスを示しています。

🔊 豆包・音声合成モデルと豆包・音声再現モデルは、感情表現と話し手の声の特徴の再現において向上しています。

4、AI動画生成ツールRunwayが著作権侵害のYouTubeコンテンツを使用してトレーニングしていたことが発覚

この記事では、Runway社が開発したGen-3Alpha動画生成ツールが著作権侵害コンテンツを使用していたというスキャンダルを暴露し、著作権論争を引き起こしています。AI企業が著作権法に違反する事例が相次いでおり、立法者も新たな技術的課題に対応するために著作権法の再検討を行っています。

【AiBase要約:】

📊 Runway動画生成ツールが著作権侵害コンテンツを使用していたことが発覚—著作権論争を引き起こす

🛡️ AI企業が著作権法に違反する事例が相次ぐ—著作権紛争がAI開発のボトルネックとなる

📜 立法者による著作権法の再検討—法律と著作権使用ポリシーが継続的に更新される

5、タイトル難民に別れを告げる!BilibiliがAIGC推奨広告タイトル機能をリリース

クリエイティビティが重要なこの時代、Bilibiliが発表したAIGC推奨広告タイトル機能は、広告制作に新たな活力を吹き込みます。AIが生成した10個のヒットタイトルにより、制作プロセスがよりシンプルで効率的になり、広告効果の向上に貢献する可能性があります。

【AiBase要約:】

🔑 クリエイティビティが重要であり、タイトルが鍵となります。AIGC推奨広告タイトル機能により、制作がよりシンプルで効率的になります。

🤖 AIマスターの背後には、膨大なデータによるトレーニングがあります。様々なスタイルで目を引くタイトルを生成します。

🚀 AIマスターの継続的な最適化により、タイトルがより正確で、よりターゲットに合致したものになります。広告制作の自由度が大きく広がります。

6、即刻AI検索ツール「问问小宇宙」登場

即刻Appは、小宇宙に基づいたAI検索機能「问问小宇宙」を発表しました。音声コンテンツの深掘り、深い議論、独自の洞察を提供することに重点を置いています。レトロな配色とパーソナライズされた推奨機能が特徴で、検索結果をより豊かで多様化し、ユーザーのニーズに近づけています。

image.png

【AiBase要約:】

🔍 問問小宇宙は、小宇宙に基づいたAI検索機能で、音声コンテンツの深掘りに重点を置いています。

🎧 深い議論と独自の洞察を提供し、関連する音声コンテンツを推奨します。

🎨 レトロな配色とパーソナライズされた推奨機能により、豊かで多様な検索結果を提供し、ユーザーのニーズに近づけています。

詳細はこちら:https://top.aibase.com/tool/wenwenxiaoyuzhou

7、翻訳界の「AI特務機関」!バイトダンスがエンドツーエンド音声同時翻訳システムCLASIを発表

CLASIは、バイトダンスが発表したエンドツーエンド音声同時翻訳システムで、グローバルコミュニケーションに革新をもたらします。言語モデルと情報検索システムを組み合わせることで、正確で高速な翻訳を実現し、コンテキストメモリ機能を備え、人間の翻訳者を凌駕します。完璧ではありませんが、機知に富んだ対応能力で、効率的な翻訳サービスを提供します。CLASIの登場は、異言語間のコミュニケーションに新たな地平を開き、人間のコミュニケーション方法に穏やかな革新をもたらします。

【AiBase要約:】

🌐 CLASIはエンドツーエンド音声同時翻訳システムで、言語モデルと情報検索システムを組み合わせることで、正確で高速な翻訳を実現します。

🧠 CLASIはコンテキストメモリ機能を備えており、以前の内容を関連付けることで翻訳の一貫性を確保し、人間の翻訳者を凌駕します。

🔍 CLASIは機知に富んだ対応能力で、意味を推測し、妥当な翻訳を提供し、有効な情報を伝える能力において、商用システムやオープンソースシステムを上回っています。

詳細はこちら:https://top.aibase.com/tool/clasi

8、武漢大学と中国移動九天人工知能チームが共同で音声ビデオ話者認識データセットVoxBlink2をオープンソース化

武漢大学と中国移動九天人工知能チーム、昆山杜克大学は、YouTubeデータに基づいて11万時間以上の音声ビデオ話者認識データセットVoxBlink2をオープンソース化しました。これは現在、公開されている音声ビデオ話者認識データセットの中で最大規模です。このデータセットはオープンソースの音声語料庫を充実させ、声紋大規模モデルのトレーニングをサポートします。

image.png

【AiBase要約:】

🔍 データセットの規模は11万時間を超え、9904382個の高品質な音声セグメントとビデオセグメントが含まれており、YouTubeの111284人のユーザーからのデータです。

🔬 データセットは、候補者の準備、顔の抽出と検出、顔認識、アクティブスピーカー検出など、複数ステップのデータマイニングを経ており、正確性は92%に向上しています。

🛠 VoxBlink2は、ResNetベースの2D畳み込みモデルとECAPA-TDNNベースの時系列モデル、超大規模モデルResNet293など、様々なサイズのボイスプリントモデルをオープンソース化しており、Vox1-Oデータセットで優れたパフォーマンスを示しています。

詳細はこちら:https://VoxBlink2.github.io

9、Google Geminiの大幅アップデート:多言語対応、パフォーマンス向上、青少年向け公開

Googleは、AIチャットボットGeminiの全面的なアップグレードを発表しました。これには、多言語対応、パフォーマンス向上、青少年向け公開が含まれます。今回のアップデートは、ユーザーエクスペリエンスの向上、運用コストの削減、透明性の向上、適用範囲の拡大を実現し、GoogleのAI分野における野心と決意を示しています。

【AiBase要約:】

🌐 多言語対応:Gemini 1.5 Flashは40の言語に対応し、230の国と地域をカバーし、品質と応答速度を向上させています。

🔍 コンテキストウィンドウの拡張:Geminiのコンテキストウィンドウは32,000トークンに拡張され、より長いテキストの処理とファイルアップロード機能をサポートしています。

🚀 より広範な適用範囲:Geminiの機能は、Messagesアプリへの統合、モバイルアプリのプロモーション、青少年向け公開にまで拡大されます。

10、簡単に調整可能!MicrosoftがPhi-3小型言語モデル向けにサーバーレス微調整機能を発表

Microsoftは、Phi-3小型言語モデル向けのサーバーレス微調整機能を発表し、開発者がモデルのパフォーマンスを簡単に調整および最適化できるようにしました。この取り組みは、AIアプリケーションの開発と普及をさらに促進します。

image.png

【AiBase要約:】

📈 サーバーレス微調整機能:開発者は、サーバーを管理することなく、Phi-3モデルを簡単に調整し、パフォーマンスを向上させることができます。

💰 高コストパフォーマンスのPhi-3モデル:低コストで高効率なパフォーマンスを提供し、様々な企業アプリケーションシナリオに適しています。

🤖 激化する市場競争:MicrosoftとOpenAIなどのAIプロバイダー間の競争が激化し、AI業界の発展を促進しています。

詳細はこちら:https://azure.microsoft.com/en-us/blog/announcing-phi-3-fine-tuning-new-generative-ai-models-and-other-azure-ai-updates-to-empower-organizations-to-customize-and-scale-ai-applications/

11、マスク氏、テスラ取締役会にxAIへの50億ドル投資承認を要請

マスク氏は、人工知能スタートアップ企業xAIに50億ドルを投資する計画を発表しており、テクノロジー企業ネットワークの利益相反を引き起こす可能性があります。テスラはロボットと人工知能企業への転換を進めており、マスク氏は自律走行ロボットタクシーと人型ロボットの艦隊を構築すると約束しています。xAIは昨年7月に設立され、評価額は180億ドルで、マスク氏は競合他社のOpenAIとAnthropicを追いかけています。

【AiBase要約:】

🚀 マスク氏はxAIに50億ドルを投資する計画を発表しており、テクノロジー企業ネットワークの利益相反を引き起こす可能性があります。

🤖 テスラはロボットと人工知能企業への転換を進めており、マスク氏は自律走行ロボットタクシーと人型ロボットの艦隊を構築すると約束しています。

💰 xAIは昨年7月に設立され、評価額は180億ドルで、マスク氏は競合他社のOpenAIとAnthropicを追いかけています。

12、Google AIの幾何学的超進化:IMO金メダル争い、19秒の解法速度で人間の選手を圧倒

この記事では、Google DeepMindのAIシステムが国際数学オリンピック(IMO)で驚異的な成績を収めたことを紹介しています。惜しくも銀メダルでしたが、AIは並外れた解法能力と速度を示し、人間の選手を圧倒しました。AIの数学分野における無限の可能性について考えさせられます。

【AiBase要約:】

🏅 AIシステムがIMO競技会で驚異的な成績を収め銀メダルを獲得し、並外れた解法能力と速度を示しました。

🧠 AlphaProofとAlphaGeometry2の2つのAIシステムは、数学的推論と幾何学的解法に長けており、将来の発展に大きな可能性を秘めています。

🌐 Google AIの数学分野における超進化は人間の知性を挑戦し、人工汎用知能(AGI)の発展に新たな方向性を提供します。

詳細はこちら:https://www.chinaz.com/ainews/10608.shtml

13、AnthropicのクローラーロボットがウェブサイトのAIクローラー拒否ポリシーを無視し、批判を浴びる