快手今天放了個大招,開源了自家的圖像生成模型——"可圖 Kolors"。這可不是一個普通的模型,它在數十億的文本圖像對上進行了訓練,搭載了通用語言模型(GLM)作爲文本編碼器,支持中英文雙語提示詞,還能處理長達256個token的上下文。

可圖 Kolors 特色一覽:

  • 中英雙語支持:採用通用語言模型(GLM)作爲文本編碼器,讓模型不僅精通英文,也能完美理解並運用中文提示詞。

  • 長文本處理能力:支持長達256個token的上下文長度,讓創作者能夠細緻描繪心中所想,無論是複雜場景還是豐富故事。

  • 海量數據訓練:在數十億個文本圖像對上進行訓練,模型擁有龐大的知識庫,能夠生成多樣化且精準的圖像。

  • 中國文化元素優化:特別針對中國的文化元素進行了優化處理,使得生成的圖像更貼近中國文化特色,滿足本土化需求。

  • 中文文字生成:"可圖 Kolors"不僅能理解中文,還能在生成的圖片中嵌入中文文字,爲圖像增添更多表達力。

AIbase測試一下,發現,目前可圖在圖片中插入中文表現會更好,基本都可以正確輸出,但英文的話,容易少字或錯字。

QQ截圖20240708112714.jpg

QQ截圖20240708111705.jpg

可以看到,上面生成的躺平小貓,中文完全沒問題,但我換成“AIbase”就會有缺字漏字的情況。就輸出中文而言,可圖表現可圈可點,不過注意,文字不能太長,太長的話,容易出錯。

QQ截圖20240708112728.jpg

這個模型不僅僅是一個簡單的工具,它背後有快手強大的技術支撐。它在海量數據上訓練,對中國文化元素有特別優化,生成的圖像更有中國味。這不僅僅是技術上的突破,更是文化上的傳承。

開源計劃還包括了CN(ControlNet)支持、LoRa(低秩適應)、IPA(圖像提示適應)和ComfyUI直接支持,這些都是爲了讓你的創作過程更加流暢和個性化。

技術細節:

  • "可圖 Kolors"基於SDXL模型架構,並融合了ChatGLM256技術,以增強雙語理解和文字生成能力。

  • 值得注意的是,運行此模型需要較大的顯存,大約19GB,這可能對硬件設備有一定要求。

快手這次開源"可圖 Kolors",不僅是對技術社區的貢獻,更是對創作自由的一次大膽推動。這表明了快手在AI技術上的決心和實力,也讓我們看到了AI在藝術創作上的無限可能。

可圖官網:https://top.aibase.com/tool/kuaishouketudamoxingkolors

項目地址:https://top.aibase.com/tool/kolors