螞蟻集團和inclusionAI聯合推Ming-Omni：首個開源版多模態GPT-4o

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 9, 2025

近日，Inclusion AI 與螞蟻集團聯合推出了一款名爲 “Ming-Omni” 的先進多模態模型，標誌着智能技術的新突破。Ming-Omni 能夠處理圖像、文本、音頻及視頻，爲多種應用提供強大支持，其功能不僅涵蓋語音和圖像生成，還具備多模態輸入的融合處理能力。

** 全面的多模態處理能力 **

Ming-Omni 的設計中採用了專用編碼器來提取不同模態的標記（tokens），這些標記經過 “Ling” 模塊(即混合專家架構，MoE)進行處理，後者配備了新提議的模態特定路由器。這樣一來，Ming-Omni 便能夠高效地處理和融合多模態輸入，支持多種任務而無需額外的模型、特定任務的微調或結構重組。

** 語音與圖像生成的革新 **

與傳統多模態模型相比，Ming-Omni 的一個顯著亮點在於其支持音頻和圖像生成。通過集成先進的音頻解碼器，Ming-Omni 能夠生成自然流暢的語音。同時，其使用的高質量圖像生成模型 “Ming-Lite-Uni” 則確保了圖像生成的精細度。此外，該模型還能夠進行上下文感知的對話、文本轉語音轉換和多樣的圖像編輯，充分展示了其在多個領域的應用潛力。

** 流暢的語音與文本轉換 **

Ming-Omni 在語言處理方面的能力同樣引人注目。其具備對方言的理解和語音克隆功能，可以將輸入的文本轉換爲多種方言的語音輸出，展現了其強大的語言適應性。例如，用戶可以輸入不同的方言句子，模型將能夠理解並以相應方言進行迴應，提升了人機交互的自然性和靈活性。

** 開放源代碼，促進研究與開發 **

值得一提的是，Ming-Omni 是目前已知的首個在模態支持上與 GPT-4o 匹敵的開源模型。Inclusion AI 和 Ant Group 承諾將所有代碼和模型權重公開，旨在激勵社區的進一步研究與開發，推動多模態智能技術的不斷進步。

Ming-Omni 的發佈不僅爲多模態智能領域注入了新的活力，也爲各類應用提供了更多可能性。隨着技術的不斷演進，期待 Ming-Omni 能夠在未來的智能交互中發揮更大的作用。

項目:https://lucaria-academy.github.io/Ming-Omni/

AI代理的未來：GPTs正在改變我們的工作和學習方式

在科技的快速發展中，人工智能（AI）的應用越來越廣泛，許多人開始期待 “代理” 技術的崛起。代理是指一種能夠自主工作、完成特定目標的智能程序。近期，有關 AI 代理的討論如火如荼，但現有技術距離真正的智能代理仍有一段距離。想象一下，如果我們能擁有一款能夠自動撰寫學術論文的 AI 代理，它可以在接收到數據集和研究領域後，深入學習如何撰寫論文、分析數據、進行文獻綜述、生成假設並進行測試，最後輸出一篇完整的學術論文。然而，現實中的 GPT（生成預訓練變換器）

小米官宣7月底新品發佈潮，首款真AI眼鏡重磅亮相對標Meta雷朋

此次小米7月底的發佈會將是科技愛好者關注的焦點。除了萬衆期待的小米汽車之外，小米還將帶來多款重磅新品，包括性能強勁的Redmi K80至尊版以及功能升級的小米平板7S Pro。然而，最令人期待的莫過於小米首款真AI眼鏡的首次公開亮相。據知名博主數碼閒聊站透露，這款AI眼鏡的市場定位將對標Meta雷朋，後者目前是全球範圍內銷售表現最佳的AI眼鏡產品。此前已有爆料指出，作爲小米在該領域的開山之作，這款真AI智能眼鏡將採用先進的雙芯架構，並自帶高清鏡頭，預計能實現與Meta雷朋

RAGFlow震撼來襲！開源RAG引擎解鎖深度文檔理解，引爆企業AI新革命！

近日，一款名爲RAGFlow的開源RAG（檢索增強生成）引擎引發了業界廣泛關注。這款基於深度文檔理解的企業級AI工具，以其強大的多模態數據處理能力和高效的工作流程，爲企業處理複雜文檔和實現精準問答提供了全新解決方案。RAGFlow:深度文檔理解的先鋒RAGFlow是一款完全開源的RAG引擎，專注於深度文檔理解，旨在幫助企業和個人從海量非結構化數據中提取有價值的信息。不同於傳統基於關鍵詞的檢索方式，RAGFlow結合大型語言模型（LLM）與先進的文檔解析技術，支持從複雜格式的文檔(如Wor

OpenAI升級ChatGPT Search功能，提供更精準、更智能的響應

OpenAI於2025年6月13日宣佈對ChatGPT Search功能進行重大升級，進一步提升其搜索質量和用戶體驗。據悉，此次更新使ChatGPT能夠提供更精準、更智能的響應，同時支持更長的對話上下文記憶。這意味着用戶在進行復雜查詢或長時間交互時，ChatGPT能夠更好地理解需求並減少重複回答，爲用戶帶來更流暢的體驗。OpenAI表示，新版本在生成答案時可能略微耗時更長，但搜索結果的全面性和準確性得到了顯著提升。技術突破:圖片搜索與項目功能優化除了文本搜索的改進，ChatGPT Search現已新增圖片搜索功

字節跳動Seaweed APT2震撼發佈！實時互動AI視頻生成，解鎖3D虛擬世界新紀元

近日，字節跳動推出了一款革命性的AI視頻生成模型Seaweed APT2，其在實時視頻流生成、互動相機控制及虛擬人類生成方面的突破引發了業界熱議。這款模型以其高效的性能和創新的交互特性，被譽爲“通往虛擬全息甲板（HoloDeck）的重要一步”。Seaweed APT2:實時視頻生成新標杆Seaweed APT2是字節跳動Seed團隊開發的一款8億參數的生成式AI模型，專爲實時交互視頻生成設計。相較於傳統視頻生成模型，Seaweed APT2採用自迴歸對抗後訓練（AAPT）技術，通過單次網絡前向評估(1NFE)生成包含4幀視頻的潛空