近日,Qwen VLo多模態大模型正式發佈,該模型在圖像內容理解與生成方面取得了顯著進展,爲用戶帶來了全新的視覺創作體驗。
據介紹,Qwen VLo在繼承原有Qwen-VL系列模型優勢的基礎上,進行了全面升級。該模型不僅能夠精準“看懂”世界,更能基於理解進行高質量的再創造,真正實現了從感知到生成的跨越。用戶現在可以在Qwen Chat(chat.qwen.ai)平臺上直接體驗這一新模型。
Qwen VLo的獨特之處在於其漸進式生成方式。模型在生成圖片時,採用從左到右、從上到下的逐步構建策略,過程中不斷對預測內容進行優化調整,確保最終結果的和諧一致。這種生成機制不僅提升了視覺效果,還爲用戶提供了更靈活、可控的創作過程。
在內容理解與再創造方面,Qwen VLo展現了強大的能力。與以往的多模態模型相比,Qwen VLo在生成過程中能夠更好地保持語義一致性,避免將汽車誤生成其他物體或無法保留原圖關鍵結構特徵的問題。例如,當用戶輸入一張汽車照片並要求更換顏色時,Qwen VLo能準確識別車型,保留原有結構特徵,並自然轉換色彩風格,使生成結果既符合預期又不失真實感。
此外,Qwen VLo還支持開放指令編輯修改生成。用戶可以通過自然語言提出各種創意性指令,如改變畫風、添加元素或調整背景等。模型能夠靈活響應這些指令,並生成符合用戶預期的結果。無論是藝術風格遷移、場景重構還是細節修飾,Qwen VLo都能輕鬆應對。
值得一提的是,Qwen VLo還具備多語言指令支持能力。該模型支持包括中文、英文在內的多種語言指令,爲全球用戶提供了統一且便捷的交互體驗。無論用戶使用哪種語言,只需簡單描述需求,模型便能快速理解並輸出理想結果。
在實際應用中,Qwen VLo展現了多樣化的功能。它可以直接生成圖像並進行修改,如替換背景、添加主體或進行風格遷移等。同時,模型還能完成基於開放指令的大幅修改,包括檢測和分割等視覺感知任務。此外,Qwen VLo還支持多張圖像的輸入理解和生成,以及圖像檢測、標註等功能。
除了圖文同時輸入的情況外,Qwen VLo還支持文本到圖像的直接生成,包括通用圖像和中英文海報等。模型採用動態分辨率訓練,支持任意分辨率和長寬比的圖像生成,使用戶能夠根據實際需求生成適配不同場景的圖像內容。
目前,Qwen VLo還處於預覽階段,雖然已展現出強大的能力,但仍存在一些不足之處。例如,在生成過程中可能存在不符合事實或不完全與原圖一致的情況。研發團隊表示,他們將持續迭代模型,不斷提升其性能和穩定性。
體驗地址:chat.qwen.ai