快手開源圖像生成模型可圖Kolors 支持在畫面中生成文字

快手今天放了個大招，開源了自家的圖像生成模型——"可圖 Kolors"。這可不是一個普通的模型，它在數十億的文本圖像對上進行了訓練，搭載了通用語言模型（GLM）作爲文本編碼器，支持中英文雙語提示詞，還能處理長達256個token的上下文。

可圖 Kolors 特色一覽:

中英雙語支持:採用通用語言模型（GLM）作爲文本編碼器，讓模型不僅精通英文，也能完美理解並運用中文提示詞。
長文本處理能力:支持長達256個token的上下文長度，讓創作者能夠細緻描繪心中所想，無論是複雜場景還是豐富故事。
海量數據訓練:在數十億個文本圖像對上進行訓練，模型擁有龐大的知識庫，能夠生成多樣化且精準的圖像。
中國文化元素優化:特別針對中國的文化元素進行了優化處理，使得生成的圖像更貼近中國文化特色，滿足本土化需求。
中文文字生成:"可圖 Kolors"不僅能理解中文，還能在生成的圖片中嵌入中文文字，爲圖像增添更多表達力。

AIbase測試一下，發現，目前可圖在圖片中插入中文表現會更好，基本都可以正確輸出，但英文的話，容易少字或錯字。

QQ截圖20240708112714.jpg

QQ截圖20240708111705.jpg

可以看到，上面生成的躺平小貓，中文完全沒問題，但我換成“AIbase”就會有缺字漏字的情況。就輸出中文而言，可圖表現可圈可點，不過注意，文字不能太長，太長的話，容易出錯。

QQ截圖20240708112728.jpg

這個模型不僅僅是一個簡單的工具，它背後有快手強大的技術支撐。它在海量數據上訓練，對中國文化元素有特別優化，生成的圖像更有中國味。這不僅僅是技術上的突破，更是文化上的傳承。

開源計劃還包括了CN（ControlNet）支持、LoRa(低秩適應)、IPA(圖像提示適應)和ComfyUI直接支持，這些都是爲了讓你的創作過程更加流暢和個性化。

技術細節:

"可圖 Kolors"基於SDXL模型架構，並融合了ChatGLM256技術，以增強雙語理解和文字生成能力。
值得注意的是，運行此模型需要較大的顯存，大約19GB，這可能對硬件設備有一定要求。

快手這次開源"可圖 Kolors"，不僅是對技術社區的貢獻，更是對創作自由的一次大膽推動。這表明了快手在AI技術上的決心和實力，也讓我們看到了AI在藝術創作上的無限可能。

可圖官網:https://top.aibase.com/tool/kuaishouketudamoxingkolors

項目地址:https://top.aibase.com/tool/kolors

科幻照進現實？Open-TeleVision支持遠程操控機器人

加州大學聖地亞哥分校與麻省理工學院的合作項目“Open-TeleVision”致力於打造遠程操作機人的新型開源操作系統。該系統利用V.R頭顯，如Vision Pro、Quest等，實現了從遙遠距離精準操控機器人及物體的能力，其沉浸式體驗和順滑操控直追電影《阿凡達》中的先進科技。其優化的適配性，無需額外設備，通過頭顯直接感知空間深度與立體視覺，確保精細控制。藉助前瞻性的技術亮點——視覺中心區域處理、活動頸部模擬聚焦方式，操作人彷彿掌控一切。通過逆運動學算法與Web平臺接入模式，簡化高效率遠程交互。解決自由度匹配挑戰與通過數據採集實現機器人自學習的解決方案，提升系統跨場景應用的可靠性和泛化能力。這一創新爲遠程操作與人工智能交互探討提供了新的見解與應用場景。更多詳細信息可訪問 GitHub 地址：[https://github.com/Improbable-AI/VisionProTeleop](https://github.com/Improbable-AI/VisionProTeleop)。

AI 模型訓練成本暴漲，2027 年或達 1000 億美元！

Anthropic 首席執行官預計 AI 模型訓練成本在未來三年內將會有顯著提升，從目前的 10 億美元增長到 1000 億美元，引發行業對成本前沿的波瀾與 AI 泡沫的可行性討論。這一成本增長主因在於不斷增長的硬件需求，特別是 AI 模型快速擴張對高性能計算硬件（特別是 GPU 和數據中心能源）的驅動。此外，伴隨着人工智能從生成式向通用目的的演進，基礎理論與發展路徑的探討與其實用成本之間的平衡成爲關注焦點。提高效率與優化成本成爲 AI 領域深度研究的關鍵。關注硬件與能源優化、提高人力成本利用效率、數據管理與維護，仍將是降低 AI 訓練成本、實現其經濟可持續發展的核心路徑。因此，AI 產業仍需高度關注技術與經濟策略的綜合平衡，以推動其蓬勃發展。

月之暗面推出 Kimi 瀏覽器插件支持點問筆、總結器等功能

Moonshot AI的Kimi瀏覽器插件現已上線，旨在升級用戶在網頁及應用中的體驗。該插件擁有點問筆及總結器兩大功能：通過劃選文字獲取即時解釋與答疑，利用位於網頁右下角的總結器快速摘要全文。支持全局浮窗與側邊欄模式，便於在寫作過程中持續對話與搜索信息。通過快捷鍵啓動Kimi，實現高效操作。發展歷程中包括多項體驗優化，例如直接在App中打開微信中的PDF文件、搜索引用溯源、部分複製功能擴大範圍，以及新增提問推薦功能可根據用戶問答提供相關問題。網頁版功能進一步增加，支持Ctrl+C/V進行貼圖操作與利用歷史記錄搜索，涵蓋基礎運算、函數運算等多個計算器功能板塊。插件下載地址爲：https://kimi.moonshot.cn/extension/download

反AI圖像盜竊工具Glaze需求量劇增吸引大批藝術家

一款名爲 Glaze 的免費工具正受到藝術家們的熱捧，它的主要功能是通過在圖像中添加難以察覺的噪點，以保護藝術風格不受 AI 圖像生成器的抄襲。自從 Meta 公佈計劃利用用戶數據進行 AI 訓練後，WebGlaze 的訪問請求迅速增加，導致藝術家可能需要等待數週甚至數月纔可獲取工具使用權。Glaze 的開發者 Ben Zhao 指出，項目團隊會手動審覈每個申請，確保申請者爲真實人員及工具未被濫用。然而，安全研究人員發現了繞過 Glaze 保護的方法，並對 Glaze 的有效性提出了質疑，因爲一些攻擊團隊認爲 Glaze 的防禦措施並不足。

清華大學開源CodeGeeX4-ALL-9B：多語言代碼生成模型超越主要競爭對手

清華大學知識工程組與數據挖掘團隊新推出CodeGeeX4-ALL-9B，作爲CodeGeeX系列的最新成果，其在多語言代碼生成領域達到巔峯，重新定義自動化編碼性能與效率標準。基於GLM-4-9B框架，經過廣泛訓練的它擁有9.4億參數，超越同類模型，擅長代碼生成、補全與解釋，展現優異推理速度與整體性能。適應能力極強，涵蓋了軟件開發全方面需求，提供倉庫級別的代碼問答功能，助力開發者與代碼庫交互更爲直觀高效。基準測試顯示在BigCodeBench和NaturalCodeBench上的優越表現，確認了其在真實應用中強大的可靠性和創新能力。以用戶爲中心的設計使其易於集成各種版本的transformers庫，兼容GPU與CPU，確保不同計算環境的靈活性與廣泛性採用。CodeGeeX4-ALL-9B可通過其推理過程，根據用戶輸入生成精準、可操作的代碼輸出，優化開發流程，尤其對於複雜算法和自動化編碼任務極具價值。這一利器標誌着代碼生成領域的重要進步，將極大地提升軟件開發的效率與創新。

快手開源圖像生成模型可圖Kolors 支持在畫面中生成文字

相關推薦

科幻照進現實？Open-TeleVision支持遠程操控機器人

​AI 模型訓練成本暴漲，2027 年或達 1000 億美元！

月之暗面推出 Kimi 瀏覽器插件 支持點問筆、總結器等功能

反AI圖像盜竊工具Glaze需求量劇增 吸引大批藝術家

清華大學開源CodeGeeX4-ALL-9B：多語言代碼生成模型 超越主要競爭對手

AI 模型訓練成本暴漲，2027 年或達 1000 億美元！

月之暗面推出 Kimi 瀏覽器插件支持點問筆、總結器等功能

反AI圖像盜竊工具Glaze需求量劇增吸引大批藝術家

清華大學開源CodeGeeX4-ALL-9B：多語言代碼生成模型超越主要競爭對手