正文

通義千問能看圖了!阿里雲開源視覺語言大模型Qwen-VL ,支持圖文雙模態輸入

發布於AI新閒資訊

時間 :Aug 25, 2023

閱讀 :1分鐘

阿里雲開源了視覺語言模型Qwen-VL,這是繼8月開源通用模型Qwen-7B和對話模型Qwen-7B-Chat之後,又一個開源的大模型。Qwen-VL支持中英文,可以進行知識問答、圖像標題生成、圖像問答等多種應用。相比其他模型,Qwen-VL可以進行中文開放域定位,在圖像中準確標註檢測框。Qwen-VL基於Qwen-7B研發,引入視覺編碼器,支持圖像輸入。Qwen-VL在多項視覺語言任務中的測試中,取得了同等模型最好的效果。Qwen-VL已在ModelScope等平臺開源。多模態是大模型發展的重要方向,仍面臨一定技術挑戰。

通義千問重磅升級：實時語音識別模型 Fun-ASR-Realtime 正式發佈

通義千問推出實時語音識別模型Fun-ASR-Realtime，首字延遲降至百毫秒級，實現“即說即反饋”的流暢交互。其識別準確度接近離線模型，在保證高精度同時突破實時性瓶頸，標誌語音交互體驗邁向新高度。

Jul 6, 2026

210.8k

豆包、通義千問雙雙下線"AI擬人化"功能： 7 月 15 日新規落地，行業集體收縮

《人工智能擬人化互動服務管理暫行辦法》7月15日生效，字節跳動“豆包”與阿里“通義千問”率先響應，即將下線自定義擬人化代理功能。豆包已通知用戶，該功能自7月15日起下線，10月15日起徹底停用相關服務，成爲新規下首批調整的頭部AI應用。

Jul 6, 2026

318.5k

阿里雲QoderWork推出“峯谷Token”:錯峯調用Qwen3.7-Max低至2折

阿里雲旗下QoderWork推出“峯谷Token”計費，引導用戶錯峯利用夜間（22:00至次日8:00）閒置算力，任務自動享低至2折優惠，主力模型Qwen3.7-Max等受益。該模式精細化配置AI資源，爲企業和開發者大幅降低大模型應用成本。

Jun 24, 2026

187.4k

通義千問上線足球預測AI助手連紅牌和絕殺都能算準?

2026年美加墨世界盃開幕當天，阿里通義千問App上線足球預測AI助手，精準預測墨西哥2:0勝南非及紅牌趨勢，併成功預判韓國2:1絕殺逆轉捷克，被網友稱爲AI版“章魚哥”。該助手基於海量大數據訓練，除歷史戰績和球員數據外，還引入舉辦地因素，展現高精度預測能力。

Jun 12, 2026

502.1k

打通AI應用“最後一公里”：阿里雲秒悟Meoo CLI正式開源

阿里雲開源了命令行工具Meoo CLI，定位爲本地Agent與雲端能力的連接樞紐。它幫助開發者將AI生成的本地代碼原型轉化爲線上應用，自動處理數據對接、環境配置及發佈流程，解決從代碼到部署的行業痛點。

Jun 11, 2026

255.8k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご