百度在 AIGC 領域迎來了新的里程碑,正式開源了其最新的視覺理解模型 ——Qianfan-VL。該系列模型共推出三個版本,分別爲3B、8B 和70B,參數量由小到大,適用於不同的應用場景。令人矚目的是,Qianfan-VL 系列的訓練完全依賴於百度自研的崑崙芯 P800芯片,充分展現了國產芯片在人工智能領域的強大實力。

Qianfan-VL 被稱爲多模態大模型,具備同時理解圖像和文本的能力。例如,它可以分析複雜圖表中的數據和趨勢。在其核心能力方面,Qianfan-VL 在 OCR(光學字符識別)和教育場景優化上表現尤爲突出。用戶只需拍攝身份證,模型便能自動識別姓名和證件號,實現全場景的文字識別。無論是印刷體、手寫字,還是複雜的數學公式,它都能輕鬆識別並提取信息,轉換爲結構化數據。

image.png

在教育領域,Qianfan-VL 被定位爲 “超級學霸”,能夠幫助學生拍照解題,進行幾何推理和函數分析。根據測試結果,70B 版本的 Qianfan-VL 在科學問答測試 ScienceQA 中獲得了98.76的高分,遠超同類競爭對手。同時,在中文多模態基準測試 CCBench 中,該版本也以80.98的高分脫穎而出,展示出其在中文語境下的強大理解能力。

支撐 Qianfan-VL 訓練的崑崙芯 P800芯片,具備極佳的功耗控制,150W 至160W 的功耗讓其在大規模集羣中具有明顯的能耗和散熱優勢。P800的獨特架構設計將計算單元與通信單元分開,優化了芯片的利用效率。通過 “通算融合” 技術,數據傳輸與計算過程可以無縫銜接,大幅提高了模型訓練性能。

Qianfan-VL 的底層架構融合了多個業界優秀成果,並採用了創新的 “四階段訓練管線” 方法,確保模型在訓練過程中具備紮實的通識基礎和專業知識。目前,Qianfan-VL 全系列模型已在 GitHub 和 Hugging Face 等平臺上開源,供企業和開發者自由使用,同時百度智能雲的千帆平臺也提供在線體驗與部署服務。

GitHub:

https://github.com/baidubce/Qianfan-VL

Hugging Face:

https://huggingface.co/baidu/Qianfan-VL-70B

劃重點:

🌟 百度 Qianfan-VL 系列模型正式開源,包含3B、8B 和70B 三個版本,適用於不同場景。  

🧠 模型具備強大的多模態能力,可同時識別文字和圖像,尤其在 OCR 和教育領域表現突出。  

💡 崑崙芯 P800芯片支撐模型訓練,功耗低且利用效率高,優化了大規模計算性能。