AIデイリーニュース：スマホで動作する大規模言語モデルOctopusv2が一夜で話題に；90後男性がAIで故人を「復活」、注文1000件超；OpenAIがカスタムモデル構築を許可；初のEQ搭載会話型AIが登場

【AI日報】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットな話題を皆様にお届けし、開発者に焦点を当て、技術トレンドの把握や革新的なAI製品の応用に関する理解を支援します。

最新のAI製品　詳細はこちら：https://top.aibase.com/

QQ截图20240407155231.png

📰🤖📢AI最新情報

スタンフォード大学、スマホで動作する大規模言語モデル「Octopusv2」を発表。GPT-4を凌駕し、一夜で話題に

【AiBaseより】
⭐️ スタンフォード大学がOctopusv2を発表。20億パラメーターのモデルで、スマートフォンなどのデバイス上で動作し、GPT-4を上回る精度と低遅延を実現。コンテキスト長は95％削減。
⭐️ デバイス上でのAIエージェント時代の到来。Octopusv2は、革新的な関数トークン戦略と、推論速度を向上させるトレーニング方法を採用し、優れたパフォーマンスを実現。
⭐️ パフォーマンス評価においてOctopus-V2-2Bは卓越した結果を示し、速度が168％向上。デバイス上でのAI開発に新たな活力を注入。
論文はこちら:https://arxiv.org/abs/2404.01744
モデルはこちら:https://huggingface.co/NexaAIDev/Octopus-v2

90後青年、AIで故人を「蘇らせる」。年間1000件以上の取引を達成

【AiBaseより】
⭐️ 90後青年、張澤偉氏はAI技術を用いて、故人のデジタル像を制作。既に1000件以上の注文を受け付けている。
⭐️ 張氏のチームは、故人の容貌や声を再現し、顧客がデジタル像とインタラクションできるようにしている。
⭐️ このサービスの独自性は、AI技術によって生成された故人のデジタル像が反応することで、人間が演じる必要がない点にある。
詳細はこちら:https://www.chinaz.com/2024/0407/1608319.shtml

OpenAI、開発者向けに新機能を追加。カスタムモデルの構築が可能に

【AiBaseより】
⭐️ 開発者はOpenAIの新機能を使用して、組織、ビジネス分野、タスクのニーズに特化したカスタムモデルを構築できる。
⭐️ カスタムモデルには、専門知識ベース、特定データの理解、タスクの実行、特定の入力への応答などが含まれる。
⭐️ OpenAIは、ファインチューニングAPI、カスタムトレーニングモデルプログラム、ファインチューニング支援サービスなどを提供し、開発者がカスタムモデルを構築するのを支援する。
詳細はこちら:https://openai.com/blog/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program

OpenAI、GPT-4のトレーニングに100万時間以上のYouTube動画のトランスクリプトを使用

【AiBaseより】

🤖 OpenAIはYouTube動画のトランスクリプトをGPT-4のトレーニングに使用

📚 AI企業は高品質なトレーニングデータの課題に直面

⚖️ データ処理における著作権法の曖昧な領域に関する問題

AIビデオ理解の最高峰、新たなMiniGPT4-VideoがSOTAを塗り替える！ブルガリ広告のキャプションが秀逸

【AiBaseより】
⭐ MiniGPT4-Videoフレームワークは、複雑なビデオを理解し、詩的なキャプションを作成できる。
⭐ 時系列の視覚データとテキストデータの処理をサポートし、ビデオの複雑性を理解することに長けている。
⭐ 複数のベンチマークテストで大幅な改善を示し、ビデオキャプションや広告などに強力な解釈能力を提供できる。
論文はこちら:https://arxiv.org/pdf/2404.03413.pdf

DeepMind、Geckoを発表: ドキュメント検索に特化、7倍の大規模モデルに匹敵する性能

【AiBaseより】
🦎 Geckoは汎用的なテキスト埋め込みモデルで、ドキュメント検索、意味的類似性、分類タスクに特化している。
🦎 GeckoはLLMから知識を抽出することで、検索エンジンの性能を向上させている。
🦎 大規模なテキスト埋め込みベンチマークにおいて、256次元のGeckoは768次元の既存モデルを上回っている。
論文はこちら:https://arxiv.org/pdf/2403.20327.pdf

　マイクロソフト、1000億ドルを投じて生成AIを推進、この株価は上昇する可能性

【AiBaseより】
🧠 マイクロソフトはArm設計のカスタムチップを導入し、Arm Holdingsの成長に貢献する見込み。
📈 Arm Holdingsは既にAIチップの成長から恩恵を受けており、マイクロソフトのプロジェクトはその業績をさらに押し上げる可能性がある。
🔋 マイクロソフトはカスタムチップによって他社への依存を減らし、性能を向上させコストを削減できる可能性があり、Armの収益増加につながる見込み。

マスク氏の友人がxAIに30億ドルの資金調達を支援

【AiBaseより】
🤑 マスク氏と緊密な関係にある投資家が、xAIへの30億ドルの資金調達を支援する計画。
🤖 xAIはOpenAIやAnthropicなどの競合他社と競争し、競争の激しいAI分野での開発を加速させている。
💼 AI人材獲得競争が激化しており、xAIと他の競合他社は人材の獲得と維持にしのぎを削っている。

AIの次の大きな飛躍は感情の理解、初のEQ搭載対話型AIが登場

【AiBaseより】
⭐️ HumeAIが感情認識機能を搭載した対話型AIを発表。53種類の感情を検出できる。
⭐️ HumeAIはユーザーの感情を理解し、応答することに重点を置き、音声の特徴を通じてインタラクションを実現。
⭐️ ユーザーが独自のAIモデルをトレーニングできるAPIを提供し、ヘルスケアやカスタマーサービスなど幅広い分野への応用が可能。
公式サイト:https://dev.hume.ai/docs/expression-measurement-api/overview

金山ソフト WPS365、ワンストップAIオフィス製品を発表へ

【AiBaseより】
⭐ WPS365はユーザーの業務効率と体験の向上を重視
⭐ コンテンツ作成ツールとコラボレーションソフトウェアを含むスイート
⭐ ツール、コラボレーション、管理の統合を核となる理念とする

🤖📱💼AIアプリケーション

Infinity AI:シナリオを入力するだけでワンクリックで映画を生成、デジタルクローン機能も提供

【AiBaseより】
⭐ 目標:シナリオを入力するだけでワンクリックで映画を生成、公式デモが公開済み
⭐ 技術チームはCEOの容姿をクローン化して製品機能を披露し、将来小規模なチームがAIを活用してアカデミー賞を受賞する可能性を示唆。
⭐ 自身のクローン化サービスを提供。ユーザーは動画を録画してカスタムAIモデルをトレーニングし、自身の音声と表情を含む動画コンテンツを生成できる。
公式サイト:https://top.aibase.com/tool/infinity-ai
オンライン体験はこちら:https://studio.infinity.ai/
詳細なチュートリアルと動画:https://qqi2gjmnk4.feishu.cn/wiki/HTmRwpZ1hiRONpkZ3SIce89ynuc?fromScene=spaceOverview

Google、Scenicを発表:ビデオコンテンツを認識し、詳細な説明を生成

【AiBaseより】
🔍 SOTAモデルとベースラインモデルを提供し、大規模なビジュアルモデルの迅速なプロトタイプ作成をサポート。
🔍 JAXとFlaxを使用して開発され、画像、ビデオ、オーディオ、およびマルチモーダルな組み合わせモデルをサポート。
🔍 ビデオコンテンツを認識し、詳細な説明を生成し、機能豊富なベースラインモデルとデータセットを提供。
製品はこちら:https://top.aibase.com/tool/scenic

CameraCtrl:テキストからビデオを生成し、レンズ制御を可能に。AnimateDiffによるレンズ制御をサポート

【AiBaseより】
⭐レンズ制御はビデオ生成において非常に重要
⭐レンズエンコーダーのトレーニングを通じて、プラグアンドプレイ式のレンズモジュールを実現
⭐様々なデータセットによるビデオ強化により、レンズ制御の制御性と汎化性を向上
製品はこちら:https://hehao13.github.io/projects-CameraCtrl/

Lixel CyberColor:無限に拡大可能な映画レベルの3Dシーンを自動生成

【AiBaseより】
⭐️ LCCはMulti-SLAMとガウシアン・スパッタリング技術を用いて、映画レベルの3Dシーンを生成する。
⭐️ XGRIDSのMulti-SLAMアルゴリズムと3DGS技術により、リアルな大規模3Dモデルが作成される。
⭐️ XGRIDSはLCCプラグインとSDKを提供し、複数のプラットフォームで3Dコンテンツを無限に複製できる。
公式サイト:https://xgrids.com/lcc

AI音声認識ツールUniversal-1:38秒で60分の音声処理が可能。fast Whisperより高速

【AiBaseより】
⭐️ Universal-1は、正確で堅牢な多言語音声テキスト変換機能を提供する。
⭐️ Universal-1はタイムスタンプ推定により、精度と話者識別を向上させている。
⭐️ AssemblyAIは、Conformer RNN-TアーキテクチャとGoogle Cloud TPUsを使用して、効率的なUniversal-1モデルを構築した。
製品はこちら:https://top.aibase.com/tool/universal-1

　InstantStyle: テキストから画像のスタイルを参考に生成、SDでスタイルの一貫性を維持

【AiBaseより】
⭐️ コンテンツとスタイルを効果的に分離し、シンプルながらも強力な技術で実現。
⭐️ CLIPグローバル特徴の適用により、スタイルとコンテンツの明確な分離を実現。
⭐️ 異なる階層のネットワークが異なる意味情報を捉え、より優れたスタイル保持効果を実現。
製品はこちら:https://top.aibase.com/tool/instantstyle

————

毎日のMidjourneyプロンプト：セクシーなECモデル

画像出典：AI生成画像、画像ライセンス提供元Midjourney

A beautiful Chinese Girl，Detailed facial details，long hair ，dark hair， wearing a short pink satin dress. She is sitting on concrete stairs in front of a tiled building facade. The lighting is soft and natural， with sunlight casting shadows --ar3:4--v6.0--style raw

美しい中国の女性、詳細な顔の描写、長い髪、黒髪、ピンクのサテンのミニドレスを着ている。彼女はタイル張りの建物の正面にあるコンクリートの階段に座っている。柔らかく自然な光で、日光が影を落としている

AIデイリーニュース：スマホで動作する大規模言語モデルOctopusv2が一夜で話題に；90後男性がAIで故人を「復活」、注文1000件超；OpenAIがカスタムモデル構築を許可；初のEQ搭載会話型AIが登場

関連推奨

Meta、EUにおけるマルチモーダルAIモデルの展開を一時停止　テクノロジー規制に関する議論を巻き起こす

Microsoft Q-Sparseモデル：8Bパラメータで7Bモデルに匹敵する性能、訓練と微調整も容易！

AIがYouTubeから「盗み学習」か、アップル、NVIDIA、Anthropicが論争に巻き込まれる

アップルが釈明：YouTube字幕データはApple Intelligenceに使用せず、OpenELMは研究目的のみ

Anthropic、ベンチャーキャピタルと提携し、1億ドル規模のAIスタートアップファンドを立ち上げ

AIデイリーニュース：スマホで動作する大規模言語モデルOctopusv2が一夜で話題に；90後男性がAIで故人を「復活」、注文1000件超；OpenAIがカスタムモデル構築を許可；初のEQ搭載会話型AIが登場

関連推奨

Meta、EUにおけるマルチモーダルAIモデルの展開を一時停止 テクノロジー規制に関する議論を巻き起こす

Microsoft Q-Sparseモデル：8Bパラメータで7Bモデルに匹敵する性能、訓練と微調整も容易！

AIがYouTubeから「盗み学習」か、アップル、NVIDIA、Anthropicが論争に巻き込まれる

アップルが釈明：YouTube字幕データはApple Intelligenceに使用せず、OpenELMは研究目的のみ

Anthropic、ベンチャーキャピタルと提携し、1億ドル規模のAIスタートアップファンドを立ち上げ

Meta、EUにおけるマルチモーダルAIモデルの展開を一時停止　テクノロジー規制に関する議論を巻き起こす