【AI日報】へようこそ!ここは、人工知能の世界を探求するためのあなたの毎日のガイドです。毎日、AI分野のホットな話題をお届けし、開発者に焦点を当て、技術トレンドの洞察や革新的なAI製品の応用を理解するお手伝いをします。

1、グーグルが本気を出した!究極の兵器でGPT-4oに対抗、ビデオモデルVeoがSoraに挑む

グーグルは最近、Project Astra、ビデオモデルVeo、Gemini 1.5 Proなど、一連の強力なAIツールを発表し、グーグル検索を完全に変革し、OpenAIに挑戦することを目指しています。中でも、ビデオモデルVeoはOpenAIのSoraへの正面からの挑戦と見なされており、驚くべき映画のような質感とプロフェッショナルな生成効果を備えています。グーグルは複数の画期的な成果を組み合わせることで、ビデオ生成の一貫性、品質、解像度を向上させました。発表されたAIツールは、グーグルの人工知能分野における継続的な進歩と革新を示しており、競争はさらに激化していくでしょう。

image.png

【AiBase要約】

🔸Project Astraという強力なツールは、視覚認識と音声対話の効果において、GPT-4oに匹敵します。

🔸Gemini 1.5 Proは超長文コンテキストウィンドウを備え、トークン数は200万に達し、個人利用にも開放されています。

🔸ビデオ生成モデルVeoはSoraに対抗し、生成されるビデオはリアルなだけでなく、光線や構図において驚くべき映画のような質感を持っています。

Veoビデオ生成申請ページ:https://aitestkitchen.withgoogle.com/tools/video-fx

Gemini体験ページ:https://aistudio.google.com/app/prompts/new_chat

2、マイクロソフト、Azure OpenAIでGPT-4oモデルの使用を発表

マイクロソフトは、最新のマルチモーダルモデルGPT-4oがAzure OpenAIで使用可能になったことを発表しました。このモデルは、テキスト、ビデオ、オーディオを跨いでのマルチモーダル推論をサポートし、強力なマルチモーダル解釈と出力能力を備えています。GPT-4oは、教育、言語学習、イメージ評価など幅広い分野で応用が期待されています。

【AiBase要約:】

🔸 GPT-4oはテキスト、ビデオ、オーディオを跨いでのマルチモーダル推論をサポートし、強力なマルチモーダル解釈と出力能力を示します。

🔸 教育分野ではAIチューターとして活用でき、生徒の質問への回答やリアルタイムの言語翻訳に役立ちます。

🔸 言語学習において優れた性能を発揮し、ビデオを使ったスペイン語学習など、イメージ評価分野でも幅広い応用が期待できます。

3、バイトダンス、自社開発の豆包大規模言語モデルシリーズを発表

バイトダンスは2024年春の火山エンジンFORCE原動力大会で、豆包大規模言語モデルシリーズを発表し、人工知能分野における深い蓄積と革新的な能力を示しました。豆包大規模言語モデルは社内で広く利用されており、外部サービスは業界のインテリジェント化アップグレードを促進します。この革新的な成果は、バイトダンスの技術蓄積と将来のAI開発への洞察を示しています。

image.png

【AiBase要約:】

✨ バイトダンスは9つのモデルを含む豆包大規模言語モデルシリーズを発表し、深い技術蓄積と革新的な能力を示しました。

🚀 豆包大規模言語モデルは社内で広く利用されており、外部サービスは業界のインテリジェント化アップグレードを促進します。

💡 この革新的な成果は、バイトダンスの技術蓄積と将来のAI開発への洞察を示しています。

詳細:https://www.chinaz.com/2024/0515/1616629.shtml

4、阿里巴巴国際、AIバーチャル試着ツールを発表、1分で完了

阿里巴巴国際傘下のPicが発表したAIバーチャル試着ツールは、アパレル販売業者に革命的なコスト削減と効率向上をもたらします。販売業者は、衣料品の画像をアップロードしてモデルを選択するだけで、短時間でプロフェッショナルなスタジオ撮影効果の商品画像を生成でき、平均コストは0.2〜0.3元人民币に抑えられます。このツールは撮影プロセスを簡素化するだけでなく、モデルの著作権の合法性も保証しており、広交会の北米バイヤーから熱烈な歓迎を受けています。

image.png

【AiBase要約:】

👗 AIバーチャル試着ツールは、アパレル販売業者が撮影コストを削減し、商品をモデルに着せた画像を生成するのに役立ちます。

📸 バーチャル試着機能は、上着と下着の画像のアップロードをサポートし、ワンピースを認識して、さまざまな効果の展示画像を生成します。

💰 販売業者がバーチャル試着機能を使用する平均コストは0.2〜0.3元人民币に抑えられ、撮影コストの大幅な削減と製品の世界市場への販売促進につながります。

5、テンセント、混元DiT画像生成モデルをオープンソース化 対話コンテキストに基づいて画像を生成・詳細化

この記事では、テンセントがオープンソース化した混元DiT画像生成モデルHunyuan-DiTを紹介します。このモデルは、中国語と英語を精密に理解し、対話コンテキストに基づいて画像を生成および詳細化することができます。Hunyuan-DiTはTransformer構造、テキストエンコーディング、位置エンコーディングを組み合わせ、マルチモーダル大規模言語モデルをトレーニングし、画像生成タスクに顕著な効果をもたらしました。このモデルは、自然言語処理、画像生成などの分野で幅広い応用が期待されています。

【AiBase要約:】

🔑 Hunyuan-DiTはTransformer構造を採用し、テキスト処理分野で成功を収めています。

🔑 テキストエンコーディングと位置エンコーディングにより、Hunyuan-DiTは中国語の細かいニュアンスを理解します。

🔑 マルチモーダル大規模言語モデルをトレーニングすることで、Hunyuan-DiTは正確で記述的な画像の説明を生成できます。

詳細リンク:https://github.com/Tencent/HunyuanDiT

6、ElevenLabs、音声合成APIを発表 開発者は製品に音声またはビデオ翻訳機能を追加可能に

ElevenLabsは最近、音声合成APIを発表し、開発者が製品に音声またはビデオ翻訳機能を追加できるようにしました。このAPIは29種類の言語翻訳をサポートし、元の発言者の音声の特徴を保持します。開発者はPythonチュートリアルとAPIリファレンスを使用してすぐに使い始めることができ、主要なプログラミング言語に簡単に統合できます。ElevenLabsは、テキストから曲を生成するElevenLabs Musicも発表しており、優れた音楽表現力と創作能力を示しています。

image.png

【AiBase要約:】

🔊 音声合成APIは、音声またはビデオを29種類の言語に翻訳し、元の音声の特徴を保持できます。

🎶 ElevenLabs Musicは、リズム感、ハーモニー、創造性など、音楽面で優れたパフォーマンスを発揮します。

🎤 ElevenLabsの主要製品には、音声クローン、テキスト読み上げ、AI音声合成ソリューションなどがあります。

詳細リンク:https://elevenlabs.io/docs/api-reference/create-dub

7、MiniMax、「人生の相棒」海螺AIを発表

MiniMaxは「海螺AI」という人生の相棒製品を発表し、学生、社会人、フリーランス、クリエイターなどあらゆる層の人々に、外部脳と人生の相棒を提供することで、情報過多や高速運転によるストレスを軽減します。小海螺はスマートで効率的な特徴を備え、長文の処理、感情の理解、ユーザーへの丁寧な傾聴をサポートし、多様なインタラクション方式に対応しています。広く利用されており、24時間365日オンラインでユーザーの問題を解決し、人生のさまざまな段階でユーザーをサポートすることを目指しています。

image.png

【AiBase要約:】

🧠 スマートで効率的:小海螺は自社開発のマルチモーダル大規模言語モデルに接続し、長文の処理をサポートし、スマートで効率的な特徴を備えています。

💬 ヒューマンタッチなインタラクション:温かみのある製品で、感情を理解し、ユーザーに丁寧に耳を傾け、テキスト入力、ファイルアップロード、音声コミュニケーションなど、さまざまなインタラクション方式をサポートしています。

🌟 多様なユーザー層への適用:受験生から大企業のオペレーターまで、さまざまなユーザー層が利用しており、多様な使用方法を示しています。

8、Android、AIベースの詐欺電話検出機能を間もなく導入

Googleは、Gemini Nanoテクノロジーを使用して詐欺電話の詐欺的な言葉遣いや会話パターンを識別する新しい保護機能を開発しています。ユーザーはリアルタイムで警告を受け取り、疑わしい通話を終了するよう促されます。この機能はデバイス上で監視を行い、会話のプライバシーを維持し、詐欺行為の防止に役立ちます。

image.png

【AiBase要約】

🔍 Gemini Nanoテクノロジーを使用して、詐欺電話の詐欺的な言葉遣いや会話パターンを識別し、リアルタイムで警告を提供します。

🚫 ユーザーは警告を受け取り、疑わしい通話を終了するように促され、個人情報の漏洩や詐欺を回避できます。

💡 Gemini Nanoは現在、Google Pixel 8 ProとSamsung S24シリーズのスマートフォンのみをサポートしており、機能の適用範囲が限定されています。

9、グーグル、Gemini Nano AIをChromeブラウザに直接組み込む計画

グーグルは、Gemini Nano AIをChromeブラウザに直接組み込む計画を発表しました。これは、ユーザーがブラウザ内でソーシャルメディアの投稿や製品レビューなどを生成できることを意味し、開発者にはエラー情報の説明やコード修正の提案を提供します。Gemini Nanoはローカルデバイスで動作するため、より高速でプライバシー保護されたAI体験を提供します。

【AiBase要約】

✨ Gemini NanoはChromeブラウザに直接組み込まれ、ユーザーはソーシャルメディアの投稿や製品レビューなどを生成できます。

🔧 Gemini NanoはChrome DevToolsの一部として、開発者にはエラー情報の説明やコード修正の提案を提供します。

⚡ Gemini Nanoはローカルデバイスで動作し、より高速でプライバシー保護されたAI体験を提供します。

10、グーグル、教育分野に特化した新しいAIモデルLearnLMを発表

グーグルが発表した新しいAIモデルLearnLMは、生徒が宿題を解き、学習効果を高めることを目的としており、グーグルの他の製品と統合することで、カリキュラムの簡素化、数学や物理の問題への回答など、さまざまな学習支援機能を提供します。

image.png

【AiBase要約】

🤖 LearnLMは、グーグルがGeminiをベースに開発したAIモデルで、生徒が宿題を解き、学習効果を高めることを目的としています。

📚 LearnLMは、さまざまな方法でテーマの例を見つけ、提示し、生徒の学習を指導し、学習意欲を高めます。

💡 LearnLMは、グーグル検索、Android、YouTube、Gemチャットボットと統合され、カリキュラムの簡素化、ビデオへの質問への回答、パーソナルエキスパートなどの機能を提供します。

詳細リンク:https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/

11、グーグル、AIコンテンツ透かし技術をビデオとテキスト分野に拡大

グーグルは、AIコンテンツ透かし技術をビデオとテキスト分野に拡大し、新しいデジタル透かし技術SynthIDを導入して、AIによって生成されたコンテンツをマーク付けすると発表しました。この取り組みは、政治的な虚偽情報や有害なコンテンツの拡散に対処する上で重要な意味を持ちます。

【AiBase要約】

🔍 SynthIDは新しいデジタル透かし技術で、AIによって生成されたビデオとテキストをマーク付けできます。

🛡️ デジタル透かしは人間の目では識別できませんが、システムによって検出でき、政治的な虚偽情報や有害なコンテンツの拡散に対処できます。

🌐 AIによって生成されたコンテンツのデジタル透かしは、特にAIの悪用においてますます重要になっており、グーグルのSynthIDはその一つです。