【AI日報】へようこそ!ここは毎日、人工知能の世界を探索するためのガイドです。毎日、AI分野のホットな情報を提供し、開発者に焦点を当てて、技術トレンドを理解し、革新的なAI製品の応用を学びます。

新規のAI製品:クリックして詳細を確認https://app.aibase.com/zh

1. OpenAIが新しい画像生成モデルGPT Image 1.5をリリースしました。性能が大幅に向上しました!

OpenAIは、新しい画像生成モデル「GPT Image 1.5」をリリースしました。このモデルは、画像生成と編集能力において大きな進歩を遂げており、ユーザーの指示に正確に対応し、元の画像のコア要素を保持します。また、テキストのレンダリング効果も改善され、従来のAI描画でよく見られる問題を解決しています。さらに、OpenAIは倫理的および法的な合意を確保するために、セキュリティとコンプライアンスチームを強化しました。

image.png

【AiBase要約:】

🌟 新しく公開されたGPT Image1.5モデルは、画像生成と編集の能力を大幅に向上させました。

🖼️ ユーザーはChatGPTを通じて簡単に画像を作成・編集でき、プロ級の画像処理ツールを提供します。

🔒 OpenAIは専門のセキュリティチームを設置し、生成されたコンテンツの倫理的および法的合意を確保しています。

2. 腾讯が混元世界モデル1.5を発表し、リアルタイムインタラクティブな仮想世界を開く

腾讯は、混元世界モデル1.5(Tencent HY WorldPlay)を正式にリリースしました。これは国内初のオープンなリアルタイムインタラクティブ体験プラットフォームです。このモデルは、テキストや画像を用いて迅速に独自のインタラクティブな世界を生成し、リアルタイムでの探索をサポートします。モデルにはリアルタイムインタラクティブ性、長範囲の3D一貫性、多様なインタラクティブ体験が備わっています。また、腾讯は業界で最も包括的なリアルタイム世界モデルのトレーニングシステムを初めてオープンソース化し、AI生成コンテンツの未来に新たな可能性をもたらしました。

image.png

【AiBase要約:】

🕹️ リアルタイムインタラクティブ生成機能により、24フレーム/秒で720P高解像度動画を生成します。

🌐 長範囲の3D一貫性があり、シーンの連続性を保証します。

🔧 初めてオープンソース化されたトレーニングシステムで、AI生成コンテンツに新たな可能をもたらします。

詳細リンク: https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

3. 小米が3090億パラメータのMiMo-V2-Flash大モデルをオープンソース化し、推論速度が主流競品を上回る、API価格は0.1ドル/百万Token

小米は高性能オープンソース大モデルの分野に参入し、新たに基礎言語モデル「MiMo-V2-Flash」を発表しました。このモデルはMITライセンスでモデル重みと推論コードを全面的にオープンソース化しました。このモデルは「超高速、高効率」を核心的な特徴としており、推論、コード生成、スマートエージェントタスクにおいて特に優れた性能を発揮し、実測では現在人気のある豆包、DeepSeek、元宝などの国内モデルを上回る応答速度を示しており、開発者コミュニティから注目を集めています。

image.png

【AiBase要約:】

🧠 MiMo-V2-Flashはスパースアクティベーション構造を採用し、総パラメータ数は3090億ですが、一度の推論で150億パラメータのみをアクティブ化し、計算コストを著しく低減します。

⚡ 複数の公開ベンチマークテストで優れた結果を示し、応答速度は主流競品を上回り、特に複数輪の会話や複雑な論理推論のシナリオで顕著な優位性があります。

💰 API価格は非常に競争力があり、100万トークンあたりの入力トークンは0.1ドル、出力トークンは0.3ドルであり、中小企業や独立開発者に高コストパフォーマンスな代替案を提供します。

4. 字节跳动がSeedance 1.5 Proを発表:AI音声映像創作が100%視聴同期時代に突入!

字节跳动は、Seedance 1.5 Proを発表し、AI音声映像創作が100%視聴同期時代に突入しました。ユーザーにより豊かな視聴体験を提供します。

image.png

【AiBase要約:】

🎥 音声と映像を統合して生成し、テキストまたは画像でコンテンツを誘導できます。

🎬 視聴同期能力を向上させ、キャラクターの口の動き、トーン、演技のテンポをフィットさせます。

🎭 複数言語と方言をサポートし、コメディなどのスタイル化されたコンテンツの表現力を強化します。

5. Apple MusicがChatGPTと新しく統合、ユーザーは簡単にプレイリストを作成できます!

OpenAIはApple MusicがChatGPTと統合することを発表し、ユーザーは自然言語の指示を通じてプレイリストを作成したり、音楽を探したりするのが簡単になります。これにより、ユーザー体験の使い勝手が大幅に向上します。

image.png

【AiBase要約:】

🎵 Apple MusicはChatGPTと統合され、ユーザーは簡単にプレイリストを作成できます。

💬 自然言語の指示を通じて、適切なプレイリストを素早く生成できます。

🔍 ChatGPTはユーザーが音楽を探すのを支援し、使用体験の使い勝手を向上させます。

6. Gemini予測市場全米展開:50州のユーザーがリアルタイムで現実イベントを取引、手数料無料の限定開放

Geminiは予測市場製品「Gemini Predictions」を全米に展開し、ユーザーが現実世界のイベントに基づいて予測取引を行うことを可能にしました。プラットフォームはコンプライアンスフレームワークに基づいて構築されており、オフチェーンマッチングとオンチェーン決済のメカニズムを採用し、速度と透明性を確保しています。ユーザーの採用を加速させるため、Geminiは限定的なゼロ手数料キャンペーンを開始しました。

image.png

【AiBase要約:】

🌍 Gemini Predictionsは全米で展開され、すべての50州のユーザーがリアルタイムで現実イベントを取引できます。

🔒 プラットフォームはコンプライアンスフレームワークに基づいて構築され、監督された環境で運用され、結果は改ざんできません。

💰 限定的なゼロ手数料キャンペーンで、ユーザーの参加を促進し、既存の予測市場プラットフォームに挑戦します。

7. Adobe Fireflyのビデオ機能が大アップグレード:正確なヒントによる編集、FLUX.2とAstraの統合、動画の再作成時代に終止符

Adobe Fireflyのビデオ機能は大きな更新を経て、テキストヒントに基づいた正確な局所修正をサポートし、複数のサードパーティモデルを統合することで、クリエイティブの自由度と画質を向上させました。新しい機能は、可視化されたタイムラインインターフェースとカメラ運動移行機能を追加し、短い動画クリエイターに映画レベルのカメラワークを提供します。

image.png

【AiBase要約:】

🔥 テキストヒントに基づいた正確な局所修正機能を追加し、クリエイティブ効率を向上させます。

🖼️ Black Forest LabsのFLUX.2画像モデルを統合し、生成品質を向上させます。

🎥 カメラ運動移行をサポートし、映画レベルのカメラワーク効果を実現します。

8. グーグルラボがAIアシスタントCCをリリース:Gemini技術を活用し、スマートな「スケジュール管理者」を構築

グーグルラボは、Gemini技術を基盤とする新しいAIアシスタントCCをリリースしました。グーグルエコシステムと深く統合し、ユーザーが自動的なスケジュール整理とタスク管理を実現するのを支援します。

image.png

【AiBase要約:】

📅 CCはGemini技術を基盤としたAIアシスタントで、ユーザーが自動的なスケジュール整理とタスク管理を実現するのを目的としています。

📧 CCはGmail、グーグルカレンダー、グーグルドライブなどのツールを統合し、「あなたの一日の概要」を提供します。

💡 メールの返信やカスタムリクエストを送信することで、CCを自分の好みに合わせて指導できます。