正文

開源GPT-4 Vision的替代方案即將到來

aibase

發布於AI新閒資訊

時間 :Oct 12, 2023

閱讀 :1分鐘

本文介紹了開源社區正在研發的多模態語言模型LLaVA 1.5,它整合了多個生成AI組件,經調優後計算效率很高,可以在多項任務上達到很高的準確率。LLaVA 1.5使用CLIP作爲視覺編碼器,使用開源LLaMA語言模型,通過MLP連接器進行連接。只需要大約600,000個訓練樣本和1天的時間,就可以在多模態基準測試中擊敗其他開源模型。儘管LLaVA 1.5存在使用限制,但它代表了開源社區正在創新的方向,有望推動開源大模型的發展,爲用戶提供更便捷高效的生成AI工具。

相關推薦

Claude 旗艦模型 Fable 5 開啓“按需付費”模式，訂閱用戶權益受限

Anthropic宣佈7月7日起將旗下最強模型Claude Fable5從各檔訂閱中移除，轉爲按使用量積分計費。此前Pro、Max等用戶每週可使用該模型的額度最高佔50%，現將失效，這一調整引發用戶爭議。

告別“代碼重構”焦慮：阿里開源 Page Agent，讓大模型讀懂網頁底層邏輯

阿里巴巴開源 Page Agent，改變瀏覽器自動化思路。它讓大模型直接解析網頁結構，而非依賴外部截圖或協議驅動，從而動態適應變化，破解“造輪子”困境。

美團大模型生態調整：全面限用豆包，力推自研 LongCat 體系

美團內部限制字節旗下“豆包”大模型使用，要求業務團隊自查調用情況，如需保留須提交必要性說明及遷移規劃。此舉顯示美團正加速向自研AI方案傾斜，調整基礎設施選擇。

國產大模型再迎“重磅炸彈”：Kimi K3 或於本月發佈，參數規模直指 2.5 萬億

大模型競賽進入白熱化，月之暗面確認Kimi K3將於本月發佈。據透露，其參數規模高達2.5萬億，大幅超越DeepSeek V4 Pro的1萬億，性能躍升顯著。

性能提升超兩倍：英偉達發佈 Nemotron-Labs-TwoTower 擴散語言模型

英偉達開源Nemotron-Labs-TwinTower擴散語言模型，通過“雙塔”架構突破自迴歸模型的串行解碼瓶頸。該模型將生成任務拆分爲兩個子網絡，其中一個保持凍結，以並行方式提升文本生成吞吐量，爲大規模合成任務提供高效新解法。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase