僅20B參數！字節推出Seed1.5-VL多模態模型，實現38項SOTA

在上海舉辦的火山引擎 FORCE LINK AI 創新巡展上，字節跳動正式發佈了最新的視覺 - 語言多模態模型 ——Seed1.5-VL。該模型憑藉其出色的通用多模態理解和推理能力，成爲此次活動的焦點，吸引了衆多業界專家和開發者的關注。

Seed1.5-VL 的顯著特點是其增強的多模態理解與推理能力。與之前的版本相比，Seed1.5-VL 在視覺定位和推理的速度與準確性上有了顯著提升。此外，新增的視頻理解和多模態智能體功能，使其在處理複雜任務時表現更加出色。

超高性能與低成本優勢

儘管 Seed1.5-VL 的激活參數僅爲20B，但其性能已經達到了與 Gemini2.5Pro 相當的水平。在60個公開評測基準中，Seed1.5-VL 在38個任務上取得了 SOTA（state-of-the-art）表現，尤其是在視頻理解、視覺推理和多模態智能體能力方面，均處於行業領先地位。

在推理成本方面，Seed1.5-VL 也表現出色，其推理輸入價格爲每千 tokens 僅0.003元，輸出價格爲每千 tokens 僅0.009元，極具性價比。

便捷的 API 接入

目前，Seed1.5-VL 已經在火山引擎全面開放 API，開發者只需登錄後選擇 Doubao-1.5-thinking-vision-pro，即可快速調用其能力，構建自己的 AI 視覺助手、巡檢系統、交互 Agent 或下一代智能攝像頭。

爲驗證 Seed1.5-VL 的實際性能，記者進行了多項測試。通過上傳一張貨架圖片，Seed1.5-VL 能夠迅速識別出特定產品並計算其價格。在複雜的公務員圖形推理題目中，Seed1.5-VL 也顯示出了其強大的推理能力，能夠在短時間內捕捉並推導出其中的規律，完成難度較大的邏輯任務。

Seed1.5-VL 作爲 Seed 系列最新一代多模態模型，經過在超過3T token 的多模態數據上進行預訓練，展現出在圖像問答、圖表理解、視覺推理等多個任務上的卓越表現。該模型由三個核心組件構成，包括視覺編碼模塊 SeedViT、用於視覺特徵投影的多層感知機（MLP）適配器以及基於 MoE 架構的大語言模型 Seed1.5-LLM。

GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL
https://seed.bytedance.com/zh/tech/seed1_5_vl

OpenAI發佈全新GPT-4.1模型，編程任務更得心應手

在人工智能領域的持續創新中，OpenAI 近日宣佈對其 ChatGPT 聊天機器人進行重大升級，推出了最新的 GPT-4.1模型。該模型從5月14日開始正式向用戶開放，爲 Pro、Plus 和 Team 用戶提供了新的選擇。與此同時，Enterprise 和 Edu 用戶也將於未來幾周內陸續獲得訪問權限，確保更多用戶能夠體驗這一先進技術。GPT-4.1模型的推出，標誌着 OpenAI 在處理編程任務方面的又一次飛躍。根據 OpenAI 的說法，這一新模型特別擅長按照指令執行編程任務，並能有效避免冗長的輸出，使其在專業應用場景中的表現更爲

OpenAI 升級 ChatGPT：正式引入GPT-4.1 代碼能力超強

OpenAI宣佈其最新AI模型GPT-4.1及GPT-4.1mini正式在ChatGPT平臺上線，爲全球用戶帶來更強大的編碼能力和指令執行體驗。這一消息引發了AI領域的廣泛關注，標誌着ChatGPT在功能與性能上的又一次飛躍。GPT-4.1:專爲編碼與高效任務打造OpenAI表示，GPT-4.1是一款高度優化的AI模型，特別在編碼任務和指令遵循方面表現出色。相較於此前發佈的GPT-4o，GPT-4.1在處理複雜編程需求時展現出更強的能力，同時運行速度更快，使其成爲日常編碼場景中的理想選擇。據OpenAI官方聲明，GPT-4.1不僅適用於專業開發者，

Meta 推出 CATransformers 框架助力AI行業實現減排目標

在人工智能迅猛發展的今天，Meta 的 FAIR 團隊與佐治亞理工學院聯合研發了一款名爲 CATransformers 的全新框架。該框架以降低碳排放爲核心設計理念，旨在通過優化模型架構與硬件性能，顯著減少 AI 技術在運營中的碳足跡，爲可持續的 AI 發展奠定基礎。隨着機器學習技術在各個領域的廣泛應用，從推薦系統到自動駕駛，其背後的計算需求不斷增加。然而，這些技術的高能耗問題也日益突出。傳統的 AI 系統通常需要強大的計算資源，並依賴於定製硬件加速器來運行，這不僅在訓練和推理階段

阿里巴巴開源全能視頻大模型，賦能視頻生成與編輯

5月14日晚，阿里巴巴正式推出了通義萬相 Wan2.1-VACE，這是當前行業中功能最爲全面的視頻生成與編輯模型。該模型的亮點在於它具備多種強大的能力，可以同時實現文生視頻、圖像參考視頻生成、視頻重繪、局部編輯、背景延展和時長延展等多項基礎生成和編輯功能。這一開創性的產品標誌着視頻製作的門檻進一步降低，使更多的創作者能夠輕鬆上手。此次開源的模型分爲兩個版本，分別爲1.3B 和14B，其中1.3B 版本特別設計爲能夠在消費級顯卡上流暢運行，意味着即使是普通用戶也能體驗到

阿里通義萬相Wan2.1-VACE開源號稱首個開源的視頻編輯統一模型

通義萬相宣佈VACE開源，這標誌着視頻編輯領域迎來了一次重大的技術革新。此次開源的Wan2.1-VACE-1.3B支持480P分辨率，而Wan2.1-VACE-14B則支持480P和720P兩種分辨率。VACE的出現，爲用戶帶來了一站式的視頻創作體驗，用戶無需在不同模型或工具之間頻繁切換，即可完成文生視頻、圖像參考生成、局部編輯與視頻擴展等多種任務，極大地提高了創作效率和靈活性。

​僅20B參數！字節推出Seed1.5-VL多模態模型，實現38項SOTA

相關推薦