7月30日、昆仑万維は、自己回帰のアプローチを採用したマルチモーダル統一事前学習モデル「Skywork UniPic」を正式にリリースし、オープンソース化しました。このモデルは、画像理解、テキストから画像生成、および画像編集の3つの主要な機能を単一のアーキテクチャ内で深く統合しており、大規模で高品質なデータに基づいてエンド・トゥ・エンドで事前学習され、優れた汎用性と移行性を示しています。
このモデルはMARエンコーダーとSigLIP2のメインネットワークを使用しており、従来のマルチモーダルモデルがVQやVAEエンコーダーに依存していたため語義情報の保持が不十分だった制限を突破し、タスク間の深い協調性を実現しました。ユーザーは単にプロンプトを入力するだけで、画像理解、生成、スタイル変換などの複雑な操作を同時に完了できます。例えば、特定のシーンの画像を生成したり、画像に対してスタイル化された編集を行うことができます。
性能面では、Skywork UniPicは1.5Bパラメータ規模で大規模統一モデルに近い性能を達成しました。指示に従う能力、複雑な指示による画像生成および画像編集などのベンチマークテストにおいて、このモデルは業界の先進水準に達しており、特にコンシューマー向けのグラフィックカードでもスムーズに動作し、技術の応用門戸を著しく低下させています。
モデルの成功は、精製されたデータ構築システム、専用のReward Model最適化、段階的な多タスクトレーニング戦略に起因しています。効率的なコラバスと階層的解像度トレーニングメカニズムを通じて、Skywork UniPicはモデルの性能とトレーニング効率を両立させ、従来の方法における能力のトレードオフの技術的課題を回避しています。
今回のオープンソース化は、昆仑万維がAI技術の民主化を推進する重要な取り組みです。これまでに、同社は複数の分野の大規模モデルをオープンソース化しており、Skywork UniPicの追加により、AIが手頃で利用できるクリエイティブツールとなることをさらに促進します。ユーザーは指定されたリンクからモデルの重み、技術報告書、コードリポジトリなどの主要なリソースを取得できます。
モデルの重み:
https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技術報告書:
https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
コードリポジトリ:
https://github.com/SkyworkAI/UniPic