歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、月之暗面Kimi多模態圖片理解模型 API 發佈

2025年1月15日,北京月之暗面科技有限公司正式發佈了全新多模態圖片理解模型moonshot-v1-vision-preview,該模型在原有moonshot-v1系列的基礎上進一步增強了多模態能力,旨在幫助Kimi更好地理解世界。該Vision模型具備卓越的圖像識別能力,能夠識別複雜細節並區分相似對象,表現出色,尤其在OCR文字識別和圖像理解方面,超越傳統軟件的準確性。

image.png

【AiBase提要:】

🖼️ Vision模型具備強大的圖像識別能力,能夠準確區分複雜細節和相似對象。

📄 在OCR文字識別和圖像理解方面表現優異,識別潦草手寫內容的能力超越普通軟件。

💬 模型支持多輪對話和工具調用等特性,使用靈活,但不支持聯網搜索。

2、MiniMax開源MiniMax-01全新系列模型

MiniMax於2025年1月15日發佈了其全新開源系列模型MiniMax-01,包含基礎語言模型MiniMax-Text-01和視覺多模態模型MiniMax-VL-01。該系列通過創新的線性注意力機制和超大參數量,實現了高效的長文本處理,性能與國際頂尖模型相當。

image.png

【AiBase提要:】

🧠 MiniMax-01系列模型採用創新的線性注意力機制,打破傳統架構侷限,支持長達400萬token的上下文處理。

💡 該系列模型在多項任務上追平了GPT-4o和Claude-3.5-Sonnet,尤其在長文任務中表現優異。

💰 MiniMax以業內最低價格提供文本和多模態理解API服務,標準定價爲輸入token1元/百萬token,輸出token8元/百萬token。

詳情鏈接:https://github.com/MiniMax-AI

3、周鴻禕參演 AI 短劇開拍,AI做特效、AI硬件齊上陣

360集團創始人周鴻禕宣佈參與拍攝國內首部AI短劇,該劇將在西安開機,計劃於春節期間上線。短劇以穿越爲主題,預計60集,旨在傳遞正能量並避免狗血劇情。周鴻禕希望通過短劇展示AI技術,促進其在日常生活中的普及,同時推動360的納米AI搜索產品的發展。

image.png

【AiBase提要:】

🌟 短劇將在西安開機,計劃春節上線,主題爲穿越,預計60集。

🤖 特效畫面由納米AI搜索生成,降低拍攝成本,提升視覺效果。

📚 旨在普及AI知識,助力每個人掌握AI技術,消除數字鴻溝。

4、阿里巴巴達摩院推出電商場景多模態大模型Valley2

阿里巴巴達摩院推出的Valley2是一款多模態大型語言模型,專爲電商場景設計,旨在提升各領域的性能並拓展應用邊界。該模型結合了先進的視覺編碼器和創新的處理模塊,展現了在多個基準測試中的卓越表現,標誌着多模態語言模型的重大進展。

image.png

【AiBase提要:】

🌟 Valley2基於電商場景設計,採用Qwen2.5作爲主幹,結合SigLIP-384視覺編碼器,提升多模態處理能力。

📊 訓練過程包括文本-視覺對齊和鏈式思維後訓練,確保模型在複雜問題解決中的高效性。

🏆 在多個公開基準測試中,Valley2表現卓越,尤其在電商領域的應用中超越同規模模型。

詳情鏈接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5、ChatGPT智能體來了!上線“Tasks”功能:智能處理提醒和待辦事項

OpenAI最近推出了ChatGPT的新功能“任務”,允許用戶安排未來的操作和提醒,使其更像傳統數字助理。該功能現已向Plus、Team和Pro訂閱用戶推送,用戶可以簡單地輸入任務及時間,ChatGPT將處理這些需求。儘管目前僅限於付費用戶。

image.png

【AiBase提要:】

✅ 新功能“任務”允許用戶安排未來的操作和提醒,提升ChatGPT的實用性。

🔔 用戶可通過簡單輸入告知ChatGPT所需任務及時間,輕鬆管理日常事務。

💼 當前僅向付費用戶推出,尚不明確是否會面向免費用戶,預計仍將是高級功能。

6、小型文本轉語音模型Kokoro-TTS,曾拿下TTS排行榜第一

Kokoro是一款新發布的語音合成模型,具有8200萬參數,迅速在TTS領域嶄露頭角。其在Hugging Face平臺上發佈後,憑藉僅用不到100小時的音頻數據,便在排行榜上奪得第一,展現了超高的性價比。儘管目前存在聲音克隆的侷限性,但其訓練過程的合規性和高效性爲未來的發展奠定了基礎。

image.png

【AiBase提要:】

🌟 Kokoro-82M 是一款新發布的語音合成模型,具有8200萬參數,支持多種語音包。

🎤 該模型在 TTS 領域表現卓越,曾在排行榜上排名 第一 ,僅用不到100小時的音頻數據進行訓練。

📊 Kokoro 模型的訓練採用了開放許可證的數據,確保合規性,但目前仍存在一些功能限制。

詳情鏈接:https://huggingface.co/hexgrad/Kokoro-82M

7、Topview AI推全球首個支持生成手拿產品的數字人Product Avatar

Topview AI推出的“Product Avatar”數字人解決方案爲電商行業帶來了革命性的變化。商家只需上傳產品圖片,AI便能生成手持產品的數字人並進行口播講解,極大地節省了拍攝時間和成本。該產品還支持多種語言和個性化定製,標誌着電商營銷進入AI驅動的新階段。

image.png

【AiBase提要:】

🤖 AI數字人可快速生成,無需真人模特,節省時間和成本。

🌍 支持1000多種數字人模特和28種語言,滿足全球市場需求。

🎥 靈活高效的產品展示模式,商家可隨時更換產品,提升推廣效率。

詳情鏈接:https://www.topview.ai/ai-product-avatar

8、英偉達400萬美投資 MetAI 幾分鐘將CAD文件轉爲3D世界

Nvidia最近對初創公司MetAI進行了400萬美元的種子輪融資,旨在推動AI數字雙胞胎技術的發展。MetAI專注於利用AI和3D技術迅速將CAD文件轉換爲功能性3D環境,大幅縮短數字雙胞胎的創建時間。該公司計劃在2025年將總部遷至美國,並擴大研發團隊,以滿足日益增長的市場需求。

image.png

【AiBase提要:】

🌟 Nvidia投資400萬美元於初創公司MetAI,推動AI數字雙胞胎技術發展。

🤖 MetAI利用AI和3D技術將CAD文件快速轉換爲功能性3D環境,縮短數字雙胞胎創建時間。

🚀 MetAI計劃在2025年將總部遷至美國,並擴大研發團隊以應對日益增長的市場需求。

9、訊飛星火4.0Turbo七大核心能力升級:數學、代碼能力超GPT-4o

訊飛星火4.0Turbo的全面升級標誌着科大訊飛在人工智能領域的又一重大突破。此次升級不僅在文本生成、語言理解等七大核心能力上實現了顯著提升,更在數學和代碼能力方面超越了GPT-4o,尤其是在複雜數學問題的處理上展現出更強的能力。

image.png

【AiBase提要:】

🔢 數學能力顯著提升,超越GPT-4o,能夠處理複雜數學問題。

💻 新推出的星火深度推理模型X1,擁有1750億參數,適用於深層次數據分析。

📈 科大訊飛自2020年以來累計研發投入125億元,支持AI技術的持續發展。

10、Gemini AI 實現視覺處理新突破:實時視頻與靜態圖像同步分析

谷歌的Gemini AI最近在視覺處理領域取得了重要突破,能夠同時處理實時視頻和靜態圖像。這項技術通過實驗性應用AnyChat展示,標誌着人工智能在多流處理方面的進步。開發者可以利用Gemini的架構創建自定義平臺,應用於教育、藝術等多個領域,展現出廣泛的應用潛力。

image.png

【AiBase提要:】

🌟 Gemini AI實現實時視頻與靜態圖像的同步處理,打破以往限制。

🎨 AnyChat平臺展示了AI在教育、藝術等領域的廣泛應用潛力。

🚀 開發者可以輕鬆利用Gemini的技術構建自己的視覺AI應用。

詳情鏈接:https://huggingface.co/spaces/akhaliq/anychat

11、科大訊飛星火同傳語音大模型發佈:達到人類專家譯員水平

科大訊飛今日發佈了星火同傳語音大模型,標誌着國內首個具備端到端語音同傳能力的大模型的問世。這一技術的推出,顯著提升了翻譯的流暢性和準確性,尤其在國際交流場合中表現出色。該模型支持多種語言的即時翻譯,響應時間縮短至5秒以內,達到人類專家的翻譯水平,預示着未來國際交流的便捷與高效。

【AiBase提要:】

🚀 星火同傳語音大模型是國內首個具備端到端語音同傳能力的大模型,顯著提升了翻譯效果。

🌍 該模型在英譯中方面幾乎實現無延遲,適合國際展會和旅遊等場景使用。

⚡ 支持流式翻譯和自適應語速調節,翻譯的自然度和流暢度大幅提升,超越了國際同類技術。

12、OpenBMB發佈多模態模型MiniCPM-o2.6手機也能進行視覺和語音處理

OpenBMB推出的MiniCPM-o2.6是一款具有80億參數的多模態模型,旨在解決高計算資源需求與邊緣設備兼容性之間的挑戰。該模型在視覺、語音和語言處理方面表現出色,能夠高效運行於智能手機和平板電腦上。通過模塊化設計,MiniCPM-o2.6集成了多種強大組件,支持實時處理和多語言功能。

image.png

【AiBase提要:】

🌟 MiniCPM-o2.6是一款具有80億參數的多模態模型,能夠在邊緣設備上高效運行,支持視覺、語音和語言處理。

🚀 該模型在OpenCompass基準測試中表現優異,視覺任務成績超過GPT-4V,並具備多語言處理能力。

🛠️ MiniCPM-o2.6具備實時處理、語音克隆和情感控制等功能,適用於教育、醫療等多個行業的創新應用。

詳情鏈接:https://huggingface.co/openbmb/MiniCPM-o-2_6