【AI日報】へようこそ!ここでは、人工知能の世界を探求するための毎日のガイドとして、AI分野のホットなニュースを毎日お届けします。開発者を重視し、技術トレンドの把握や革新的なAI製品の応用に関する理解を深めるお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、アリババの音声合成プロジェクトEMOが内部テストを開始 写真から歌動画を作成可能に
アリババが発表した音声合成プロジェクトEMOが内部テストを開始しました。ユーザーは写真と音声モデルを提供するだけでデジタルアバターを作成でき、低コストで効率的なデジタルアバター体験を実現します。EMOモデルは、簡単な操作性、低コスト、幅広い適用性、自然な表現などを特徴としており、強力な技術によりユーザーに全く新しいデジタルアバター体験を提供します。
【AiBase要約:】
🎤 簡単な操作: 写真と音声モデルを提供するだけでデジタルアバターを作成できます。
💰 低コスト: EMOモデルは無料の高効率ソリューションを提供し、他の製品と比較してコストが低くなっています。
🎨 幅広い適用性: 写実的な人物像だけでなく、3Dモデルや二次元漫画風の動画も生成でき、様々なユーザーのニーズに対応します。
内測申込先:https://www.wjx.top/vm/exOVbr1.aspx#
2、アップルが小型AIモデルOpenELMを発表
アップルは、一連の小型AIモデルであるOpenELMを発表し、同社のローカルAI実行分野における重要な進歩を示しました。これらの小型モデルは、ほとんどの軽量AIモデルよりも小さく、スマートフォンやノートパソコンなどのデバイスでの実行に適しています。アップルはAIをiPhoneなどのデバイスに導入することを示唆しており、同社の人工知能分野における野心を示しています。
【AiBase要約:】
⭐ OpenELMは非常に小さな言語モデルで、テキスト関連タスクで高い効率性を発揮します。
⭐ OpenELMは、ほとんどの軽量AIモデルよりも小さく、様々なサイズがあり、様々なデバイスで動作します。
⭐ アップルはAI機能が同社のデバイスに搭載されることを示唆しており、複数のAIモデルを発表し、AI分野への投資を示しています。
3、Open-Soraがひっそりとアップデート 16秒動画生成と720p解像度に対応
Open-Soraプロジェクトがオープンソースコミュニティでひっそりとアップデートされ、最大16秒のシングルショット動画生成と720p解像度に対応しました。様々な動画生成ニーズに対応するソリューションを提供しています。技術レポートでは、新機能とモデルアーキテクチャについて詳しく説明されており、STDiTアーキテクチャの重要な改良により、トレーニングの安定性とパフォーマンスが向上しました。このプロジェクトは、多段階トレーニング方法と統一された画像生成動画/動画生成動画フレームワークにおいて顕著な進歩を遂げています。
【AiBase要約:】
🚀 Open-Soraは16秒の動画生成と720p解像度に対応し、様々な動画生成ニーズに対応します。
🔬 技術レポートでは、新機能とモデルアーキテクチャについて詳しく説明されており、STDiTアーキテクチャの改良によりトレーニングの安定性とパフォーマンスが向上しました。
💡 このプロジェクトは、多段階トレーニング方法と統一された画像生成動画/動画生成動画フレームワークを採用し、高品質な動画生成を実現しています。
詳細リンク:https://top.aibase.com/tool/open-sora
4、Gemini Pro1.5より強力!動画を解釈できるマルチモーダルモデルPegasus-1がパブリックテストを開始
Pegasus-1は、ビデオ言語基礎モデルのアップグレード版であり、複数のタスクで顕著な成果を上げており、ビデオ理解の基準を刷新しました。このモデルは約17億個のパラメータを持ち、データの最適化、ビデオ処理、トレーニング技術の向上により、優れたビデオ理解とテキスト生成能力を提供します。
【AiBase要約:】
🌟 Pegasus-1はビデオ理解分野で新たなブレークスルーを達成し、Gemini Pro1.5よりも強力で、優れたパフォーマンスを発揮します。
🌟 データの最適化、ビデオ処理の向上、トレーニング技術の改良など、製品の特長的な機能がモデルのパフォーマンスを強力に支えています。
🌟 ベンチマークテストにおいて、Pegasus-1はGoogle Gemini Proなどの既存モデルを上回り、ビデオQ&A、会話、要約などのタスクで優れたパフォーマンスを示しています。
詳細リンク:https://top.aibase.com/tool/pegasus-1API
5、微信がデスクトップ向けAI効率化ツール「小微助手」を発表
微信は最近、「小微助手」というデスクトップ向けAI効率化ツールを発表しました。自然言語処理技術により、ユーザーの作業効率を向上させます。このツールはWindowsとMac OSに対応しており、柔軟な検索機能、実用的なツール、指先アシスタント機能、コミュニティ機能、そしてサポートされている会話サービスを備えています。
【AiBase要約:】
🔍 小微助手は柔軟な検索機能を提供し、自然言語でコンピュータ内の特定のフォルダの内容を検索できます。
🛠️ 組み込みの実用的なツールには、微信翻訳、クリップボード管理、JSON魔方、閃念カプセルなどがあり、日常のアシスタント機能を強化します。
🤖 指先アシスタント機能により、テキスト翻訳やテキストコレクションなどのプリセットされたショートカット操作にすばやくアクセスでき、機能のカスタマイズも可能です。
詳細リンク:https://top.aibase.com/tool/xiaoweizhushou
注:現在、微信は公式サイトでダウンロードリンクを閉鎖しています(理由は不明です)。
6、超リアルなバーチャル試着ソフトウェアIDM-VTON 服のシワまでリアルに再現
IDM-VTONバーチャル試着技術が注目を集めています。細部まで精巧に処理されており、ユーザーは衣類の質感やデザインをリアルに感じることができます。高いリアリティ、複雑な背景処理、一貫性の維持、テクスチャとパターンの正確な再現などが特徴です。ファッション小売、パーソナライズされたデザイン、オンライン試着室などの分野で活用され、消費者に便利な試着方法を提供し、デザイナーや小売業者に新しい展示販売手段を提供します。
【AiBase要約:】
👗 高いリアリティ、細部まで精巧に処理されており、現実に近い試着体験を提供します。
🌟 複雑な背景処理を行い、試着効果を高品質に維持し、様々なシーンで利用できます。
🔄 一貫性を維持し、異なる体型での同一衣類の効果を一致させ、テクスチャとパターンの再現精度を高めています。
プロジェクトアドレス:https://idm-vton.github.io/
試用アドレス:https://top.aibase.com/tool/idm-vton
7、AI検索エンジンPerplexity.aiの評価額が10億ドルに達し、新しいエンタープライズ製品を発表
Perplexity.aiは最近資金調達を完了し、評価額は数十億ドルに達し、職場での検索の正確性と効率性を向上させるエンタープライズサービス「Enterprise Pro」を発表しました。同社は世界的な拡大を加速させ、SoftBank Corp.とドイツテレコムと協力して人工知能機能を推進する予定です。
【AiBase要約:】
⭐ 資金調達を完了し、評価額は10億ドルに達し、「Enterprise Pro」を発表し、検索の正確性と効率性を向上させました。
⭐ SoftBank Corp.とドイツテレコムと協力して人工知能機能を推進し、世界的な拡大を加速させています。
⭐ データプライバシーの強化、セキュリティの向上、ユーザー管理、SOC2認証、データストレージ、シングルサインオンなどの機能を提供しています。
詳細リンク:https://top.aibase.com/tool/perplexity-enterprise-pro
8、曠視科技がHiDiffusionを発表 SDの生成速度が向上し、画像品質も向上
曠視科技が最近発表したHiDiffusion技術が業界の注目を集めています。この技術は、SDで生成される画像の解像度と生成速度を大幅に向上させることができ、最大4096×4096の解像度を可能にし、同時に生成速度を1.5〜6倍向上させます。HiDiffusionは、オブジェクトの重複や高い計算負荷の問題を解決し、高解像度画像生成タスクで優れた効果を発揮します。
【AiBase要約:】
🚀 HiDiffusion技術はSDで生成される画像の解像度と速度を向上させます。
🔍 HiDiffusionフレームワークには、RAU-NetモジュールとMSW-MSAアテンションメカニズムが含まれています。
💡 HiDiffusionを使用すると、画像生成の解像度を4096×4096に、速度を1.5〜6倍に向上させることができます。
詳細リンク:https://top.aibase.com/tool/hidiffusion
9、『これがChatGPTだ』が微信読書のホットサーチランキングで1位を獲得
この記事では、スティーブン・ウルフラム(Stephen Wolfram)が2023年に出版した『これがChatGPTだ』を紹介しています。OpenAIが開発した人工知能チャットボットプログラムChatGPTを深く分析し、ChatGPTが広く注目を集めている理由と、Wolfram|Alphaを使用して計算能力を向上させる方法を示しています。
【AiBase要約:】
🤖 ChatGPTはOpenAIが開発したチャットボットプログラムで、2022年11月にリリースされました。
📚 『これがChatGPTだ』では、ChatGPTの内的なメカニズムと原理、そして意味のあるテキストを生成する方法について解説しています。
💡 ChatGPTはWolfram|Alphaと組み合わせることで、計算知識における超能力を示しています。
10、AI映画制作プラットフォームMorph Studioがウェイティングリストユーザーへのアクセス権を正式に開放
Morph Studioがウェイティングリストユーザーへのアクセス権を正式に開放し、広く注目を集めています。このプラットフォームには、ビデオ生成におけるキャラクターの一貫性と音声生成機能が追加され、ユーザーエクスペリエンスが向上しました。ユーザーは参照画像を使用してビデオを精密に制作し、サウンドエフェクトモデルを使用してオーディオ効果を豊かにすることができます。Morph StudioはStability AIと協力して、新しい映画制作方法を提供し、統合されたワークフローを効率的に連携させます。活発なユーザーコミュニティは競争優位性であり、プラットフォームの発展を促進します。
【AiBase要約:】
🎥 ビデオ生成におけるキャラクターの一貫性と音声生成機能により、ユーザーエクスペリエンスが向上しました。
🖼️ 参照画像を使用してビデオを精密に制作し、サウンドエフェクトモデルを使用してオーディオ効果を豊かにすることができます。
🚀 Stability AIと協力し、統合されたワークフローを効率的に連携させています。
製品入口:https://top.aibase.com/tool/morph-studio
ウェイティングリストへの参加はこちら:https://app.morphstudio.com/waitlist
11、AI動画生成ツールID-Animator:キャラクターの一貫性を維持した動画アニメーションを生成可能
ID-Animatorは、ゼロショットパーソナライズされたビデオ生成方法であり、追加のトレーニングなしで、単一の参照顔画像に基づいてパーソナライズされたビデオを生成できます。この方法は、制御ネットワークを組み合わせて、単一フレームまたは複数フレームの制御画像と顔の参照画像を融合してビデオを生成します。
【AiBase要約:】
⭐ 単一の参照顔画像に基づいてパーソナライズされたビデオを生成できる、ゼロショットの人間ビデオ生成方法を提案しました。
⭐ アイデンティティ指向のデータセット構築パイプラインを導入し、ビデオ生成におけるアイデンティティ情報の抽出効率を向上させました。
⭐ 制御ネットワークを組み合わせて、単一フレームまたは複数フレームの制御画像と顔の参照画像を融合してビデオを生成します。
詳細リンク:https://top.aibase.com/tool/id-animator
12、NvidiaのCEOであるジェンスン・フアン氏がOpenAIに最初のDGX H200を自ら納入