在2024年12月18日的火山引擎 FORCE 原動力大會上,火山引擎宣佈對豆包大模型家族進行全面升級,並重磅發佈了全新的視覺理解模型。

image.png

火山引擎總裁譚待表示,豆包大模型的日均 tokens 使用量在過去幾個月中迅猛增長,達到了超過4萬億,相較於5月發佈時增長了33倍。這一增長趨勢顯示出豆包大模型在多個應用場景中的廣泛使用。

image.png

本次,火山引擎通過推出視覺理解模型,使得用戶能夠同時輸入文本和圖像的問題,模型能夠綜合理解並給出準確的回答。這一創新將大大簡化應用的開發流程,並激活大模型在更多場景下的潛力。

視覺理解模型具備更強的內容識別能力,不僅可以識別出圖像中的物體類別、形狀等基本要素,還能理解物體之間的關係、空間佈局以及場景的整體含義。比如識別影子、識別自然知識等。

image.png

視覺理解模型具備更強的理解和推理能力,不僅能更好地識別內容,還能根據所識別的文字和圖像信息進行復雜的邏輯計算,比如:圖表推理、物理推理。

image.png

另外,還擁有更細膩的視覺描述能力,可以基於圖像信息,更細膩地描述圖像呈現的內容,還能進行多種文體的創作,比如圖像創作、圖像詩歌創作等。

image.png

豆包視覺理解模型在教育、旅遊和電商等多個領域展現出廣泛的應用前景。例如,在教育方面,模型可以幫助學生優化作文和科普知識;在旅遊方面,模型能爲遊客提供外文菜單的翻譯和建築背景知識的講解;在電商營銷中,它可以幫助商家詳細描述商品特性,從而提高廣告效果。

視覺理解模型的使用成本也十分親民,每千 tokens 的價格爲0.003元,較行業平均價格降低了85%。這一價格水平使得每一塊錢可以處理多達284張720P 的圖片,標誌着視覺理解技術進入了 “釐時代”。此外,火山引擎還爲企業和開發者提供了高達15,000次的初始流量支持,幫助他們更好地利用這一技術。

image.png

在此次大會上,火山引擎不僅發佈了視覺理解模型,還對其他多個模型進行了升級。豆包通用模型 pro 的綜合任務處理能力較5月提升了32%,而在推理、指令遵循、代碼和數學等領域也分別有顯著提升。同時,豆包・視頻生成模型將於2025年1月對外開放服務,企業可以預約使用。

image.png

image.png

爲了提升企業的信息獲取和搜索推薦能力,火山引擎還推出了全域 AI 搜索服務,幫助企業更好地連接信息和用戶需求,助力各行業的智能化轉型。

劃重點:

🔍 豆包大模型的日均 tokens 使用量達4萬億,較5月增長33倍。

💡 新推出的視覺理解模型支持文本與圖像同時輸入,適用於教育、旅遊和電商等領域。

💰 每千 tokens 的使用成本僅爲0.003元,顯著低於行業平均價格。