吊打ControlNe？全能型圖像生成模型OmniGen問世，簡單提示實現圖像生成與精細編輯

AIbase基地

發布於AI新聞資訊 · 2 分鐘閱讀 · Jul 15, 2025

近日，北京人工智能學院的研究團隊推出了一款名爲 OmniGen 的全新圖像生成模型。

全能型圖片生成編輯選手

與以往的圖像生成工具如 Stable Diffusion ，OmniGen 最大的亮點是，它不再只是專注於單一任務，它具備了多種能力:

能在一個統一的框架下處理多種圖像生成任務能:包括從文本到圖像生成、圖像編輯，可以說是個全能選手。

這意味着，用戶只需提供簡單提示詞，就能控制圖像生成與精細編輯，而不再需要再使用 ControlNet、IP-Adapter 這樣的插件對圖片進行細節調整!

這裏AIbase基於給出一個詳細老式相機創意拍照的效果提示詞，整體生成的效果細節感，滿滿，效果如下：

提示詞：A vintage camera placed on the ground， ejecting a swirling cloud of Polaroid-style photographs into the air. The photos， showing landscapes， wildlife， and travel scenes， seem to defy gravity， floating upward in a vortex of motion. The camera emits a glowing， smoky light from within， enhancing the magical， surreal atmosphere. The dark background contrasts with the illuminated photos and camera， creating a dreamlike， nostalgic scene filled with vibrant colors and dynamic movement. Scattered photos are visible on the ground， further contributing to the idea of an explosion of captured memories.

再比如下面的三個官方案例，上傳兩張圖，輸入相關提示詞，就能融合在一個場景中出現。

OmniGen 的架構非常簡化。與以往的圖像生成模型不同，它不再需要額外的文本編碼器或繁瑣的工作流程。只要輸入條件，OmniGen 就能高效地生成圖像，極大地提升了用戶體驗。它結合了變分自編碼器和預訓練的 Transformer 模型，從而在一個模型中同時處理圖像和文本輸入，減少了不必要的複雜性。

爲了增強圖像生成的效果，OmniGen 還採用了校正流訓練方法，這種方式通過直接回歸目標速度，使得圖像生成的控制更加精準。此外，它的漸進式訓練策略讓模型從低分辨率到高分辨率逐步掌握生成技巧，效果相當出色。

OmniGen在圖像生成媲美先進模型

據瞭解，OmniGen 的訓練數據集也非常龐大多樣，涵蓋了各種圖像生成任務。爲了確保模型在多任務處理上的強大能力，研究人員構建了一個叫做 X2I 的大規模數據集，其中包含了文本到圖像、圖像編輯等多個任務的數據。這使得 OmniGen 能夠有效地從不同的任務中學習和遷移知識，展現出新的生成能力。

在多項測試中，OmniGen 的表現讓人驚豔，其在文本到圖像生成方面，它與市面上最先進的模型表現相當。在 GenEval 基準測試中， OmniGen 僅使用了0.1億張圖像進行訓練，而 SD3使用了超過10億張圖像。

圖像編輯能力也同樣優秀，能夠精準把控源圖像和編輯指令。比如在 EMU-Edit 測試集上，超越了 InstructPix2Pix 等知名模型，甚至與當前最先進的 EMU-Edit 模型相當。

而在主體驅動生成的任務中，OmniGen 更是展示出了超凡的個性化能力，適合藝術創作和廣告設計等多個領域。

試玩地址:https://huggingface.co/spaces/Shitao/OmniGen

論文:https://arxiv.org/html/2409.11340v1

OpenAI又走了一名高管！6年安全顧問兼AGI團隊負責人將離職

最近，OpenAI 再傳離職消息，安全政策顧問及 AGI 準備團隊負責人米爾・布倫達奇（Miles Brundage）宣佈將離開公司，並透露他所領導的團隊也將解散，成員將被重新分配到其他部門。布倫達奇在社交媒體平臺 X 上發佈了一篇文章，詳細解釋了自己的決定。他表示，離開 OpenAI 的原因主要是想要擁有更多的獨立性和發表研究的自由。值得注意的是，布倫達奇並不是唯一一位高層離職的安全研究者。早在今年5月，OpenAI 就解散了其超級對齊團隊，這個團隊主要負責人工超級智能的風險評估。此後，

KREA AI推出視頻延展功能可以給真實視頻加上各種魔法特效

KREA AI最新推出的Video Extend功能在視頻創作領域掀起一波創新浪潮。這項突破性的技術巧妙地將真實視頻與AI生成內容完美融合，爲創作者提供了前所未有的視頻特效製作體驗。該功能的核心亮點在於其獨特的視頻尾幀利用機制。通過智能分析視頻的最後一幀畫面，KREA AI能夠延伸生成長達5秒鐘的連貫視頻內容，實現無縫的視覺效果過渡。值得注意的是，KREA AI在技術集成方面也做足了功課。平臺已成功對接各大主流AI視頻模型API，並支持全模型兼容。用戶可以通過簡單的提示詞來精確控制生

蘋果將推私有AI雲服務，懸賞百萬尋找 AI 雲安全漏洞！

就在蘋果即將推出其私人 AI 雲服務 “私有云計算（Private Cloud Compute）” 之際，這家科技巨頭決定向安全研究人員提供高達100萬美元的獎勵，旨在發現可能危害其雲服務安全的漏洞。蘋果在其安全博客上發佈了一則消息，明確表示任何能夠報告遠程執行惡意代碼的漏洞的研究人員，將有機會獲得最高100萬美元的獎金。圖源備註：圖片由AI生成，圖片授權服務商Midjourney此外，蘋果還爲那些私下報告能夠提取用戶敏感信息或提交給私人云的提示的漏洞提供最高25萬美元的獎勵。他們特別提到，

Siri 的新功能：使用 ChatGPT 詢問屏幕上的內容

Apple 已經發布了 iOS18.2的第一個開發者測試版，其中包含許多新的 Apple Intelligence 功能。新功能之一是期待已久的與 ChatGPT 的集成，藉助此功能，您現在可以向 Siri 詢問有關您在設備屏幕上看到的內容的詳細信息。通過將 ChatGPT 集成到 Siri，Apple 的虛擬助手將使用 OpenAI 平臺回答複雜問題。但是，它還可以讀取 iPhone、iPad 或 Mac 屏幕上的內容。例如，如果您正在觀看視頻或在 Instagram 上查看某人的照片，您可以問“這是哪裏?”或“那張照片上的建築物是什麼?”之類的問題。來源：9to5macSiri 會

Claude 聊天機器人現在可以編寫和運行 JavaScript 代碼

Anthropic 的 Claude 聊天機器人現在可以編寫和運行 JavaScript 代碼，幫助用戶執行復雜的數學運算和數據分析。該功能已在預覽階段推出，允許 Claude 執行計算並分析電子表格和 PDF 等文件中的數據，並將結果呈現爲交互式可視化。Anthropic 的分析工具可以視爲一個內置的代碼沙箱，Claude 可以在其中進行復雜的數學運算、分析數據，並在分享答案之前迭代不同的想法。該工具可以系統地處理用戶的數據，逐步清理、探索和分析，直到得到正確的結果。Anthropic 給出了幾個可能有用的示例。例如，產

美圖奇想大模型圖像生成能力再度升級：生成質感更細膩自然

美圖公司宣佈，其旗下的美圖奇想大模型（MiracleVision）在圖像生成能力上實現了又一次升級，此次升級標誌着該大模型在綜合實力上的進一步完善。同時，美圖公司推出了一站式AI短片創作工具MOKI，預計將逐步覆蓋美圖旗下產品生態，爲用戶提供全新的視覺體驗。