先日、OpenAIは注目すべきニュースを発表しました。内部テスト中のプロジェクトSoraにおいて、既に公開されている動画生成機能に加え、画像生成機能の開発が急ピッチで進められているとのことです。この新機能により、ユーザーは動画と画像の生成をスムーズに切り替え、創作の柔軟性を高めることができます。

内部情報によると、Soraには隠れた切り替えボタンが追加され、ユーザーはプロンプト欄で選択するだけで、2つのモードを切り替えることができるようになります。画像生成を選択すると、システムは自動的にユーザーに画像の説明を求めます。この設計は、ユーザー操作の簡素化と生成コンテンツの関連性・品質向上を目指したものです。

image.png

画像生成機能の改良に加え、Soraは動画の表示方法も再分類しました。新しく追加された「Best」と「Top」カテゴリは、ユーザーがコンテンツをより効率的に絞り込んで検索するのに役立ちます。「Best」カテゴリは現在の特集チャンネルに似ており、「Top」カテゴリはユーザーのいいね数や期間に基づいて動画をランク付けする可能性があります。この分類変更は、Soraのコンテンツ推薦メカニズムに期待感を高めています。

image.png

DALL-E3のユーザーにとって、このニュースは朗報と言えるでしょう。DALL-E3は発表以来、特にMidjourneyなどの競合と比較して、やや時代遅れになっていると感じている人もいるからです。Soraの画像生成機能はまだ正式に公開されていませんが、左側のナビゲーションバーにある「Images Internal」カテゴリはユーザーの好奇心を掻き立てています。現時点ではこのカテゴリは主に動画の表示に使用されていますが、将来的には画像生成関連のコンテンツも提供される可能性があります。

今回の画像生成モデルはDALL-E4と呼ばれるのではないかという推測もありますが、OpenAIはまだそれを確認していません。業界の専門家は、Soraの画像生成器はDALL-E4を直接使用せず、「sora-turbo」モデルを利用する可能性が高いと推測しています。さらに、業界関係者は、ChatGPTはまだGPT-4oベースのマルチモーダル画像生成機能を公開していないため、今回のSoraプロジェクトの発表は注目すべき新たな進展であると指摘しています。

注目すべきは、Soraのテキストから画像への生成器のコードネームが「papaya」と呼ばれていることです。このプロジェクトへの期待感が高まります。DALL-E3の発表から1年半後、次世代モデルがどのような革新をもたらすのか、非常に興味深いところです。