
画像提供元:AI生成、画像許可サービス Midjourney


画像提供元:AI生成、画像許可サービス Midjourney
AI音楽生成企業Suno AIのCEO、ミッキー・シュルマン氏が最近「20VC」ポッドキャストで発言し、大きな議論を呼んでいます。彼は「今の音楽制作はそれほど楽しくない」と述べ、大多数の人が音楽制作のプロセスを楽しんでいないと考えていると主張しました。音楽制作には多くの時間と労力がかかり、楽器や制作ソフトウェアの習得も困難であると指摘。シュルマン氏の発言は、Suno AIが従来の音楽制作に苦労する人々をターゲットにしていることから、自己都合的なものだと見なされています。
最近、AI音楽生成会社Suno AIのCEO、ミッキー・シュルマン(Mikey Shulman)氏が『20VC』ポッドキャストで注目を集める発言をしました。同氏は、音楽制作を楽しむ人は少数派であり、多くの場合、煩雑で時間のかかる作業だと感じていると主張しています。シュルマン氏によると、音楽制作には多くの時間と練習が必要で、楽器や制作ソフトを習得しなければならず、それが挫折感を招くことが多いとのことです。画像出典:AI生成画像、画像使用許諾済
最近、智源研究院は上海交通大学など複数の機関と共同で、新一代の超長尺ビデオ理解モデルであるVideo-XL-2を正式にリリースしました。このモデルの登場により、ロングビデオ理解技術においてオープンソース分野で大きな突破を達成し、マルチモーダル大規模モデルがロングビデオコンテンツの理解分野で新たな活力をもたらしました。技術アーキテクチャ面では、Video-XL-2は主に視覚エンコーダー、ダイナミックトークン合成モジュール(DTS)、および大規模言語モデル(LLM)という3つの主要コンポーネントで構成されています。このモデルはSigを採用しています
先ごろ、テクノロジー大手の英偉達はマサチューセッツ工科大学(MIT)および香港大学と共同で、Fast-dLLMと呼ばれる新しいフレームワークを公開しました。この革新的なフレームワークは、拡散ベースの言語モデル(Diffusion-based LLMs)の推論速度を最大で27.6倍まで高速化し、人工知能の応用にさらなる強力な技術サポートを提供します。拡散モデルの課題と機会として、拡散モデルは従来の自己回帰モデル(Autoregressive Models)の強力なライバルと見られています。
AIチャットとキャラクター扮演の分野で影響力を持つCharacter.AIは、最近、ユーザー体験を強化するためのいくつかのマルチメディア機能を発表しました。同社が月曜日に発表したブログによると、新しい「AvatarFX」ツールでは、ユーザーがカスタムアニメーションビデオを作成し、自分のAIチャットキャラクターを新しいクリエイティブな環境に導入できるようになります。さらに、プラットフォームには「シーン」「ストリーム」機能も導入され、ユーザーはキャラクターを含むビデオを制作できるようにしました。