AI画像生成分野において、スタイル駆動型とトピック駆動型の画像生成は長年、互いに独立したタスクとして扱われてきました。前者はスタイルの類似性に注力し、後者はトピックの一貫性を重視しており、両者の間には矛盾がありました。最近、ビットテクノロジーのインテリジェントクリエイションラボ(UXOチーム)が「USO(統一スタイル-トピック最適化)」という新しいモデルを発表し、この業界で長年続いていた課題を成功裏に解決しました。

ビットテクノロジーの研究者たちは、AIモデルの成長がデータに依存していることを理解していました。そのため、約20万のトリプルを含む大規模なデータセットを構築しました。それぞれのトリプルには、「スタイル参照画像」「コンテント参照画像」「スタイル化された目標画像」が含まれています。この設計により、モデルはスタイルとコンテントを組み合わせて学習できるようになりました。
モデルのトレーニングプロセスにおいて、ビットテクノロジーは独自の2段階トレーニング法を採用しました。第一段階ではスタイルの学習に注力し、高度な画像エンコーダーを使用して、モデルがより深い芸術スタイルを理解できるようにしました。第二段階では、コンテンツ情報を追加し、トピックの正確性を確保するための処理を行いました。この方法により、スタイルとコンテントがモデル内で別々に学習され、最終的に画像生成時に完璧に融合されました。
モデルの性能向上をさらに図るため、ビットチームはスタイル報酬学習(SRL)メカニズムを導入しました。強化学習を通じて、モデルにトピックを保持しつつスタイルをできるだけ模倣するよう励ます仕組みです。この一連の革新により、USOは画像生成時に非常に高い柔軟性と正確さを示すようになりました。
USOの能力を検証するために、ビットテクノロジーは業界初となる、スタイル類似度とトピック忠実度の両方を同時に評価できるベンチマークプラットフォーム「USO-Bench」をリリースしました。このプラットフォーム上で、USOはさまざまな次元で顕著な優位性を示し、既存のオープンソースモデルを上回りました。
USOの技術はデジタルアート分野でのパフォーマンスだけでなく、商業デザインにも新たな可能性をもたらしています。ブランドはUSOを使って、多様なスタイルながらも一貫したマーケティング素材を生成でき、さまざまなプラットフォームのニーズに対応できます。さらに重要なのは、USOは全面的にオープンソース化されており、開発者やクリエイターが一緒にその潜在力を探求することを奨励しています。
github:https://github.com/bytedance/USO
体験:https://huggingface.co/spaces/bytedance-research/USO
ポイント:
- 🎨 ビットテクノロジーがリリースしたUSOモデルは、スタイルとトピックの対立を打ち破り、両者の完璧な融合を実現しました。
- 📊 USOモデルは、革新的なトレーニング方法と膨大なデータセットを通じて、画像生成の柔軟性と正確性を向上させました。
- 🌍 USOは全面的にオープンソース化されており、開発者がクリエイティブコンテンツや商業デザインにおける応用を探索することを奨励しています。
