Ollama多模態模型使用新版本發佈

近日,小米公司研發的MiMo-VL多模態模型接過MiMo-7B的接力棒,在多個領域展現出了強大的實力。該模型在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標杆多模態模型Qwen2.5-VL-7B,在GUI Grounding任務上的表現更是可與專用模型相媲美,爲Agent時代的到來做好了準備。
近期,谷歌 DeepMind 團隊與約翰・開普勒林茨大學 LIT AI 實驗室合作,開展了一項關於人工智能語言模型的新研究。他們採用了強化學習微調(RLFT)技術,旨在提升語言模型的決策能力。這項研究的重點在於,通過思維鏈的強化訓練,解決了模型在決策過程中存在的一些關鍵問題。隨着大數據的應用,現有的語言模型已經展現出處理文本的超越能力,甚至能夠在交互環境中做出基於知識的決策。然而,這些模型在實際決策時卻常常出現 “紙上談兵” 的問題,雖然能推導出正確的策略,卻無
Salesforce AI Research在Hugging Face平臺正式發佈BLIP3-o應用,這款全開源的統一多模態模型家族以其卓越的圖像理解與生成能力引發業界熱議。BLIP3-o通過創新的擴散變換器架構,結合語義豐富的CLIP圖像特徵,不僅提升了訓練效率,還顯著優化了生成效果。AIbase綜合最新社交媒體動態,深入解析BLIP3-o的技術突破及其對AI生態的影響。BLIP3-o核心:統一多模態架構的突破BLIP3-o是Salesforce xGen-MM(BLIP-3)系列的最新成果,旨在通過單一自迴歸架構實現圖像理解與圖像生成的統一。AIbase瞭解到,BLIP3-o摒棄了
在 AI 行業競爭日益激烈的今天,Ema 公司推出了一款新型語言模型 EmaFusion,聲稱在成本和準確性上超越了包括 O3、Gemini 和 Sonnet 在內的多款知名 AI 模型。與傳統的單一策略系統不同,EmaFusion 採用了一種 “級聯” 判斷系統,能夠動態平衡成本和準確性,同時用戶也可以根據具體任務的需求進行微調。Ema 的首席執行官 Surojit Chatterjee 表示,EmaFusion 像一個 “任務智能大腦”,能夠智能地拆解複雜的問題,並將其分配給最合適的 AI 模型來解決。他舉例說,當處理合同分析、複雜客戶支持問題或
2025年4月26日 AIbase報道:OpenAI近日宣佈,其旗艦多模態模型GPT-4o的圖像生成功能現已正式集成至ChatGPT的自定義GPTs功能中。這一更新標誌着用戶創建的定製化AI助手能夠直接生成和編輯圖像,爲內容創作、設計和教育等領域帶來更多可能性。無縫集成的圖像生成體驗GPT-4o的圖像生成功能此前已於2025年3月25日起在ChatGPT和Sora平臺向免費、Plus、Pro和Team用戶逐步開放。與過去依賴DALL-E3等外部模型不同,GPT-4o的圖像生成能力內嵌於模型本身,支持直接根據文本提示生成高質量圖像。如今,這一功能
字節跳動宣佈推出全新多模態模型Vidi,專注於視頻理解與編輯,首版核心能力爲精準的時間檢索功能。據AIbase瞭解,Vidi能夠處理視覺、音頻和文本輸入,支持長達一小時的超長視頻分析,在時間檢索任務上性能超越GPT-4o與Gemini等主流模型。這一突破性技術已在AI社區引發熱烈討論,相關細節通過字節跳動官方渠道與GitHub公開。核心功能:精準時間檢索與多模態協同Vidi以其強大的時間檢索與多模態處理能力,爲視頻理解與編輯提供了全新解決方案。AIbase梳理了其主要功能: 時間檢索精準定位