昆仑万維は、自己回帰アプローチに基づく「マルチモーダル統一プレトレーニングモデル Skywork UniPic」を正式にリリースし、オープンソースとして公開しました。このモデルは、画像理解、テキストから画像生成(T2I)、画像編集の3つの主要機能を1つのシステムに統合しており、人工知能技術のさらなる進展を示しています。
Skywork UniPic の主な特徴は、大規模で高品質なデータを使用してエンド・トゥ・エンドでプレトレーニングを行うことで、優れた汎用性と移行性を備えています。このチームはオープンコラボレーションとイノベーションの共有を推進しており、ユーザーは提供されたリンクからモデルの重み、技術報告書、コードリポジトリを取得できます。これは開発者や研究者がさらに探求や応用を行うために便利です。
Skywork UniPic は GPT-4o の自己回帰パラダイムを参考にしており、画像理解、テキストから画像生成、画像編集のタスクを組み合わせて、真正の統一マルチモーダルモデルアーキテクチャを構築しています。従来のマルチモーダルモデルとは異なり、Skywork UniPic は MAR エンコーダーと SigLIP2 の構造設計を採用しており、この設計はモデルが理解、生成、編集のタスクにおいて高い性能を発揮することを目的としています。
このモデルの能力には、画像とテキストの理解、画像生成、画像編集が含まれます。ユーザーは単純なヒントを入力するだけで、Skywork UniPic は画像の内容を理解し、新しい画像を生成したり、スタイル変換などの編集作業を行ったりできます。使いやすさと強力な機能により、このモデルは開発者間で注目を集めています。
Skywork UniPic は1.5Bの軽量なパラメータスケールを採用し、大型モデルに近い性能を実現しており、「小さくて美しい」技術的デザイン理念を強調しています。さまざまな評価で優れたパフォーマンスを示しており、特に指示の遵守、複雑な指示の生成、画像編集において優れた実行能力を発揮しています。
Skywork UniPic の高性能を確保するために、チームは細かいデータ構築とトレーニング体系を構築しており、選ばれたトレーニングデータと革新的な報酬モデルを使用して、モデルのパフォーマンスを継続的に最適化しています。多段階のトレーニングと段階的なタスク導入を通じて、Skywork UniPic はモデルの理解および生成能力を向上させるとともに、マルチタスクトレーニングにおける課題を効果的に解決しています。
Skywork UniPic のリリースは、マルチモーダル人工知能モデルの実用的な応用に対する新たなソリューションを提供し、技術のハードルを大幅に下げ、より多くの開発者がこの分野の探求に参加することを促進します。
モデル重み:
https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技術報告書:
https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
コードリポジトリ:
https://github.com/SkyworkAI/UniPic
重要なポイント:
🌟 Skywork UniPic は昆仑万維がリリースしたオープンソースのマルチモーダル統一プレトレーニングモデルであり、画像理解、生成、編集の機能を統合しています。
💻 モデルは1.5Bの軽量設計を採用しており、大型モデルに近い性能を持ち、開発者にとって使いやすいです。
📊 細かく構築されたデータと多段階のトレーニングを通じて、Skywork UniPic は様々な評価で優れたパフォーマンスを発揮し、マルチモーダル人工知能の発展を推進しています。