Stable Diffusion 3モデルがリリースされました。Soraと同じDiTアーキテクチャを採用しており、画質が大幅に向上しています。開発者によると、Stable Diffusion 3は他のテキストから画像生成システムを上回り、パラメータ数は8億から80億と様々です。SD3アーキテクチャは、Soraの中核開発メンバーとニューヨーク大学の助教授との共同研究に基づいており、MMDiTアーキテクチャはUViTやDiTよりも優れています。Stable Diffusion 3はRectified Flow(RF)式を採用しており、開発者によって提案された再重み付けRF変種は性能を継続的に向上させています。柔軟なテキストエンコーダを用いた改良のための拡張研究が行われ、他のモデルとの性能比較も行われました。
関連推奨
テンセントが開源したHunyuanImage 2.1!2K高解像度の神画像が一瞬で生成 多数の主体を正確にコントロールする複雑なリクエスト AIデザイン効率が爆発的に向上?
テンセントのHunyuanImage2.1をオープンソース化。2K解像度対応でAI生成画像の品質向上、デザイン・広告など幅広く活用可能。....
バイトダンスAIアシスタントDoubao、指定テキスト付き画像の一括生成に対応
バイトダンス傘下のAIアシスタントDoubaoは、テキストから画像を生成する機能をアップグレードし、指定テキストを含む画像をワンクリックで生成できるようになりました。Doubaoの大規模言語モデルチームの責任者によると、Doubaoのテキストから画像生成モデルは、LLM(大規模言語モデル)とDIT(デジタル画像技術)を統合したアーキテクチャを採用し、中国語データの学習能力を最適化することで、漢字の生成能力を強化し、生成効果を大幅に向上させました。
阿里云通義万相、新しい画像編集モデルACEを発表 ワンクリックで画像編集を実現
今週、阿里云通義万相チームは新しい画像編集モデルACEを発表しました。ユーザーにより便利でスマートな画像生成と編集サービスを提供することを目的としています。ユーザーは簡単な口語的な指示だけで画像を生成または編集でき、画像編集の複雑さを大幅に簡素化します。このツールは、スタイル写真、分鏡制作、室内デザインなど、幅広い用途に対応しています。ACEモデルは、テキストから画像を生成する機能だけでなく、強力な画像編集機能も備えています。ユーザーは対話形式で制御可能なビジュアル編集や要素修正を行うことができます。
Diffusionモデルでも「応用が利く」?アリババIC-LoRAが画像生成モデルにストーリー記憶能力を追加
アリババの通義实验室による最新の研究によると、既存のテキストから画像を生成するDiffusion Transformerモデルは、特定の関係を持つ複数の画像を生成する能力を既に備えており、少し「ヒント」を与えるだけで「統合理解」し、高品質の複数画像セットを生成できることが示されました。従来のDiffusionモデルは「丸暗記」をする生徒のようなもので、高品質の画像を生成するには大量のデータによるトレーニングが必要でした。しかし、IC-LoRAの活用により、「類推」が得意な秀才のようなモデルとなり、少量のデータで済むようになります。
FLUXの100倍速!NVIDIA、MIT、清華大学が超高速AI画像生成モデル「Sana」を発表、ノートPCでも瞬時に画像生成!
NVIDIA、マサチューセッツ工科大学、清華大学の研究者らが協力して開発した、Sanaと呼ばれる新しいテキストから画像生成フレームワークが登場しました。このフレームワークは、最大4096×4096ピクセルの高解像度画像を効率的に生成できます。Sanaは、高解像度で高品質、テキストとの整合性の高い画像を非常に高速に合成でき、ノートパソコンのGPUでも動作します。Sanaの中核となる設計には、深層圧縮オートエンコーダーが含まれています。従来のオートエンコーダーが画像を8倍にしか圧縮できないのに対し、Sanaで訓練されたオートエンコーダーは…
