【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求する毎日のガイドです。毎日、AI分野のホットな話題をお届けし、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用に関する理解を支援します。

最新のAI製品はこちらからご覧ください:https://top.aibase.com/

1、可灵AIプラットフォーム1.5モデルのアップグレード:顔認識モデル機能の追加と「標準モード」の追加

可灵AIプラットフォームが最近1.5バージョンにアップグレードされ、高品質ビデオ生成モードの強化や高速な720pビデオ生成をサポートする標準モードの追加など、多くの新機能が導入されました。新しい顔認識モデル機能は上級会員向けに提供され、ユーザーはトレーニング後にいつでもビデオを生成できます。

image.png

微信截图_20241125091339.png

【AiBase要約:】

🎨 高品質モードが強化され、ユーザーは移動軌跡を指定したり、静止領域を追加したりして、より精密な制御が可能になりました。

⚡ 標準モードが追加され、720pビデオの高速生成が可能になり、制作時間が大幅に短縮され、コストパフォーマンスが向上しました。

👤 顔認識モデル機能は会員向けに提供され、顔IDの維持に関する問題を解決し、いつでもビデオ生成を呼び出すことができます。

2、Runwayがビデオ拡張画面機能「Expand Video」を追加

Runwayは最近、「Expand Video」機能を発表しました。ユーザーはテキストプロンプトを使用して、元のビデオに基づいて追加の視覚コンテンツを生成し、ビデオを調整できます。この機能は、高速ズームや遠景撮影などのダイナミックエフェクトをサポートし、ビデオをより生き生きとさせます。このツールは、ビデオ生成技術の新たな進歩を示しており、創作の可能性をさらに広げます。

【AiBase要約:】

🎥 新機能の追加:RunwayMLが「Expand Video」を発表し、ユーザーはテキストプロンプトを使用して元のビデオの内容を拡張できるようになりました。

⚙️ ダイナミックエフェクトの実現:ユーザーは高速ズームや遠景撮影などのダイナミックエフェクトを作成し、ビデオの視覚体験を向上させることができます。

🚀 生成速度の向上:新世代のGen-3Alphaモデルにより、生成速度が大幅に向上し、ユーザーの迅速な創作ニーズに対応できます。

3、Huawei Mate70シリーズがAI空飛ぶ伝送をサポート、余承東氏が自らデモ

まもなく発売されるHuawei Mate70シリーズは、AI空飛ぶ伝送と魔法の手ぶり操作機能を搭載しています。ユーザーは手ぶりで簡単にコンテンツを送信でき、使い勝手が向上します。さらに、Mate70シリーズは初めてネイティブのHarmonyOSを搭載し、HuaweiのモバイルOS分野における進歩を示しています。

【AiBase要約:】

🤖 AI空飛ぶ伝送:ユーザーは簡単な手ぶりで、Mate70スマートフォンからタブレットにコンテンツを送信できます。

✋ 魔法の手ぶり操作:手が使えない状況でも、手ぶりでページめくりなどの操作が可能になり、柔軟性が向上します。

🌐 ネイティブのHarmonyOS:Mate70シリーズは初めてネイティブのHarmonyOSを搭載し、中国におけるモバイルOS分野の進歩を示しています。

4、Lightricksがリアルタイムビデオ生成モデルLTX-Videoをオープンソース化、ビデオ生成はわずか4秒!

Lightricksは、20億個のパラメータを持つLTX Videoというオープンソースのビデオ生成モデルを発表しました。このモデルは、毎秒24フレームで最大5秒のビデオを生成でき、わずか4秒で処理できます。LTXVはComfyUIとシームレスに統合され、ユーザーエクスペリエンスを向上させ、クリエイティブ産業の発展を促進します。

【AiBase要約:】

🚀 LTXVモデルは拡散トランスフォーマーアーキテクチャに基づいており、20億個のパラメータを持ち、ビデオ再生よりも高速な生成速度を実現し、4秒で5秒のビデオを生成します。

💻 bfloat16精度を採用し、主流のグラフィックカードで効率的に動作し、メモリ使用量を最適化してビデオ品質を確保します。

🌍 LTXVはComfyUIとシームレスに統合され、使用のハードルを下げ、クリエイティブテクノロジーの民主化を促進し、クリエイターに無限の可能性を提供します。

詳細リンク:https://www.lightricks.com/ltxv

5、EchoMimicV2:画像、音声、手ぶりビデオを入力するだけで「同じ」デジタルヒューマンを生成

EchoMimicV2は最新のアニメーション生成技術であり、画像1枚、手ぶりビデオ、音声を入力することで、高品質の半身人間アニメーションを生成できます。この技術は、Audio-Pose Dynamic Harmonization戦略によりアニメーションの詳細を向上させ、生成プロセスを簡素化し、ヘッドローカルアテンションメカニズムを導入してデータ不足の問題を解決します。

【AiBase要約:】

✨ EchoMimicV2は制御条件を簡素化することで、高品質の半身人間アニメーション生成を実現します。

🎨 Audio-Pose Dynamic Harmonization戦略を採用し、アニメーションの詳細と表現力を向上させます。

📊 新しいベンチマーク評価方法によると、EchoMimicV2は既存の技術よりも効果が高いことが示されています。

6、音声駆動型顔ビデオ生成技術JoyVASA

JoyVASAは、ビデオ品質と口パクの精度を向上させることを目的とした、新しい音声駆動型画像アニメーション技術です。革新的な2段階設計により、より長いアニメーションビデオの生成が可能になり、人物と動物のアニメーション化をサポートし、優れた多言語サポート能力を示しています。

image.png

【AiBase要約:】

🎨 JoyVASA技術は、顔の表情と3Dモデルを分離することで、より長いアニメーションビデオの生成を実現します。

🔊 この技術は音声の手がかりに基づいて動作シーケンスを生成でき、人物と動物のアニメーションの両方の能力を備えています。

🌐 JoyVASAは中国語と英語のデータセットでトレーニングされており、多言語サポートを備え、世界中のユーザーにサービスを提供しています。

詳細リンク:https://jdh-algo.github.io/JoyVASA/

7、PicMenu:AIでメニューを視覚化、手軽に撮影するだけで高品質なメニューを生成

PicMenuは、革新的なAIメニュー視覚化ツールです。簡単な撮影操作で、従来の紙のメニューを生きた直感的なデジタル表示に変換します。飲食業界のデジタル化変革に新たなソリューションを提供し、非常に高い実用性と技術力を示しています。

image.png

【AiBase要約:】

📸 PicMenuは、撮影によって料理情報を自動的に認識して抽出し、高品質なデジタルメニュー表示を生成します。

🌍 このツールは複数のAI技術スタックを採用し、料理情報の抽出と画像生成の高効率性と正確性を確保しています。

🔧 プロジェクトはオープンソースであり、開発者はGitHubからソースコードを取得して、パーソナライズされたカスタマイズと展開を行うことができます。

詳細リンク:https://www.picmenu.co/

8、NVIDIAがEdify3D生成モデルを発表、2分で高品質な3Dアセットを生成

NVIDIAが発表したEdify3D技術は、テキストの説明または参照画像に基づいて、2分以内に高品質な3Dモデルを生成できます。完全なUVマッピング、4Kテクスチャ、PBRマテリアルを備えています。この技術は、マルチビュー拡散モデルとTransformerベースの再構成技術を組み合わせることで、3Dアセットの作成効率を大幅に向上させ、多様なアプリケーションシナリオをサポートします。

【AiBase要約:】

🎨 Edify3D技術は2分以内に高品質な3Dモデルを生成でき、完全なUVマッピングと4Kテクスチャをサポートし、さまざまな業界に適用できます。

🔍 この技術はマルチビュー拡散モデルとTransformer再構成技術を組み合わせることで、生成されたモデルが正確なメッシュ構造と高解像度のテクスチャを持つことを保証します。

🌐 Edify3Dは、テキストプロンプトに基づいて複雑な3Dシーンを生成することもサポートしており、強力なアートデザインと3Dモデリングサポートを提供します。

詳細リンク:https://research.nvidia.com/labs/dir/edify-3d/

9、賢くなった!Xiaomiスマートホームスクリーンシリーズ製品に大規模言語モデル搭載のXiaoAIが搭載

Xiaomiは、スマートホームスクリーンシリーズ製品に大規模言語モデルのアップグレードを実施し、スーパーQ&Aや雑談対話などの新機能を追加すると発表しました。今回のアップグレードは6機種を対象としており、ユーザーはXiaoAIスピーカーアプリで設定を行う必要があります。アップグレード後、スピーカーはテキスト作成をサポートし、より包括的な知識ベースを備え、ユーザーエクスペリエンスを向上させます。

image.png

【AiBase要約:】

🔧 アップグレード対象はXiaomiスマートホームスクリーン10やXiaomi XiaoAIタッチスクリーンスピーカーPro8など6機種です。

📱 ユーザーはスピーカーを最新バージョンにアップグレードし、アプリでLLM機能を設定する必要があります。

🌐 新機能はテキスト作成とリアルタイム検索をサポートしており、ユーザーはスピーカーに直接さまざまな質問をすることができます。

10、REDMI K80ProがXiaomi AISP2.0画像処理アルゴリズムを搭載:4つの大規模モデルを融合

Xiaomiは本日、REDMI K80シリーズスマートフォンの画像構成の詳細を発表し、同シリーズの撮影能力の全面的な向上を示しました。Xiaomi AISP2.0には、光学大規模モデル2.0、トーン大規模モデル2.0、カラー大規模モデル2.0、人物大規模モデル2.0が統合されており、これらの技術の適用により、K80Proの画像処理能力がさらに向上します。

image.png

【AiBase要約:】

📷 REDMI K80シリーズは、フラッグシップ級の高ダイナミックレンジメインカメラとフローティングテレフォトレンズを搭載し、高品質な撮影ニーズに対応します。

⚙️ K80ProはXiaomi AISP2.0技術を搭載し、150枚の全アルゴリズム高画質高速撮影をサポートし、撮影体験を向上させます。

💰 標準版とPro版は、メインカメラと体験は同じですが、高コストのフローティングテレフォトレンズは含まれておらず、よりコストパフォーマンスの高い選択肢を提供します。

11、胖東来が声明を発表:AIで生成された于東来氏の声を不正に使用している複数のアカウントに警告

胖東来商貿集団は最近、声明を発表し、複数のアカウントが許可なく創設者の于東来氏の声を使用し、ビデオの内容を改ざんしていることを警告しました。これらの行為は、会社の著作権と人格権を深刻に侵害し、大衆を誤解させ、ブランドイメージに影響を与えています。胖東来は、合法的な権利とインターネット生態系の正常な秩序を守るために、法的措置を講じると述べています。

【AiBase要約:】

🔊 複数のアカウントがAIを使用して于東来氏と似た声を作成し、違法な編集と改ざんを行っています。

⚖️ 胖東来は、この行為が著作権を侵害し、虚偽情報を作り出し、インターネットの生態系を破壊していると強調しています。

🚫 同社は関連アカウントに対し、直ちに侵害行為を停止するよう求めており、法的措置をとると述べています。

12、2028年の世界の生成AIチップ市場は862.4億ドルに達すると予想