昆仑万維グループは、SkyWork AI技術発表週の3日目、最新の「Skywork UniPic2.0」モデルを正式にオープンソースとして公開しました。この統一マルチモーダルモデルのリリースは、マルチモーダルAI分野における新たな重要な進展を示しています。Skywork UniPic2.0は、統一マルチモーダルモデリング向けの効率的なトレーニングと推論フレームワークであり、生成および編集モジュールの軽量化とマルチモーダル理解モデルの共同トレーニングを通じて、理解・画像生成・編集の統合されたコア能力を構築し、「効率的で高品質かつ統一された」マルチモーダル生成モデルを実現することを目的としています。
Skywork UniPic2.0は、画像生成編集、統一モデル機能、画像生成編集後のトレーニングの3つのコアモジュールから構成されています。このモデルはSD3.5-Mediumアーキテクチャに基づいており、元々テキスト入力のみをサポートしていたモデルをテキストと画像の両方の入力を受け入れるように改善し、画像生成能力を画像生成と編集の両方に拡張しました。画像生成編集モジュールを固定化し、マルチモーダルモデルQwen2.5-VL-7BとPre-Train接続器を使用して、理解・生成・編集の統合能力を構築します。その後、接続器と画像生成編集モジュールを一緒に微調整することで、最終的に統合された理解・画像生成・編集モデルを実現します。
Skywork UniPic2.0のリリースは、開発者や研究者にモデルの重み、推論コード、強化戦略など、包括的なオープンソースプラットフォームを提供するだけでなく、生成モジュールが2BパラメータのSD3.5-Mediumアーキテクチャに基づいてトレーニングされており、画像生成および編集の指標がより多くのパラメータを持つ他のモデルを上回っています。また、このモデルでは強化学習が導入され、Flow-GRPOによって初めて採用された段階的な二タスク強化学習戦略により、複雑な指示の理解能力と画像生成・編集の一貫性が向上しています。
プロジェクトホーム:
https://unipic-v2.github.io/
技術報告書:
https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
GitHubアドレス:
https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
HuggingFace Gradio:
https://huggingface.co/spaces/Skywork/UniPic2-Metaquery
HuggingFace Model:
https://huggingface.co/spaces/Skywork/UniPic2-Metaquery; https://huggingface.co/Skywork/UniPic2-Metaquery-9B