AI日報：Kimi發佈多模態圖片理解模型API；周鴻禕參演AI短劇開拍；MiniMax-01系列模型開源；星火同傳語音大模型發佈

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、月之暗面Kimi多模態圖片理解模型 API 發佈

2025年1月15日，北京月之暗面科技有限公司正式發佈了全新多模態圖片理解模型moonshot-v1-vision-preview，該模型在原有moonshot-v1系列的基礎上進一步增強了多模態能力，旨在幫助Kimi更好地理解世界。該Vision模型具備卓越的圖像識別能力，能夠識別複雜細節並區分相似對象，表現出色，尤其在OCR文字識別和圖像理解方面，超越傳統軟件的準確性。

【AiBase提要:】
🖼️ Vision模型具備強大的圖像識別能力，能夠準確區分複雜細節和相似對象。
📄 在OCR文字識別和圖像理解方面表現優異，識別潦草手寫內容的能力超越普通軟件。
💬 模型支持多輪對話和工具調用等特性，使用靈活，但不支持聯網搜索。

2、MiniMax開源MiniMax-01全新系列模型

MiniMax於2025年1月15日發佈了其全新開源系列模型MiniMax-01，包含基礎語言模型MiniMax-Text-01和視覺多模態模型MiniMax-VL-01。該系列通過創新的線性注意力機制和超大參數量，實現了高效的長文本處理，性能與國際頂尖模型相當。

【AiBase提要:】
🧠 MiniMax-01系列模型採用創新的線性注意力機制，打破傳統架構侷限，支持長達400萬token的上下文處理。
💡 該系列模型在多項任務上追平了GPT-4o和Claude-3.5-Sonnet，尤其在長文任務中表現優異。
💰 MiniMax以業內最低價格提供文本和多模態理解API服務，標準定價爲輸入token1元/百萬token，輸出token8元/百萬token。
詳情鏈接:https://github.com/MiniMax-AI

3、周鴻禕參演 AI 短劇開拍，AI做特效、AI硬件齊上陣

360集團創始人周鴻禕宣佈參與拍攝國內首部AI短劇，該劇將在西安開機，計劃於春節期間上線。短劇以穿越爲主題，預計60集，旨在傳遞正能量並避免狗血劇情。周鴻禕希望通過短劇展示AI技術，促進其在日常生活中的普及，同時推動360的納米AI搜索產品的發展。

【AiBase提要:】
🌟 短劇將在西安開機，計劃春節上線，主題爲穿越，預計60集。
🤖 特效畫面由納米AI搜索生成，降低拍攝成本，提升視覺效果。
📚 旨在普及AI知識，助力每個人掌握AI技術，消除數字鴻溝。

4、阿里巴巴達摩院推出電商場景多模態大模型Valley2

阿里巴巴達摩院推出的Valley2是一款多模態大型語言模型，專爲電商場景設計，旨在提升各領域的性能並拓展應用邊界。該模型結合了先進的視覺編碼器和創新的處理模塊，展現了在多個基準測試中的卓越表現，標誌着多模態語言模型的重大進展。

【AiBase提要:】
🌟 Valley2基於電商場景設計，採用Qwen2.5作爲主幹，結合SigLIP-384視覺編碼器，提升多模態處理能力。
📊 訓練過程包括文本-視覺對齊和鏈式思維後訓練，確保模型在複雜問題解決中的高效性。
🏆 在多個公開基準測試中，Valley2表現卓越，尤其在電商領域的應用中超越同規模模型。
詳情鏈接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5、ChatGPT智能體來了!上線“Tasks”功能:智能處理提醒和待辦事項

OpenAI最近推出了ChatGPT的新功能“任務”，允許用戶安排未來的操作和提醒，使其更像傳統數字助理。該功能現已向Plus、Team和Pro訂閱用戶推送，用戶可以簡單地輸入任務及時間，ChatGPT將處理這些需求。儘管目前僅限於付費用戶。

【AiBase提要:】
✅ 新功能“任務”允許用戶安排未來的操作和提醒，提升ChatGPT的實用性。
🔔 用戶可通過簡單輸入告知ChatGPT所需任務及時間，輕鬆管理日常事務。
💼 當前僅向付費用戶推出，尚不明確是否會面向免費用戶，預計仍將是高級功能。

6、小型文本轉語音模型Kokoro-TTS，曾拿下TTS排行榜第一

Kokoro是一款新發布的語音合成模型，具有8200萬參數，迅速在TTS領域嶄露頭角。其在Hugging Face平臺上發佈後，憑藉僅用不到100小時的音頻數據，便在排行榜上奪得第一，展現了超高的性價比。儘管目前存在聲音克隆的侷限性，但其訓練過程的合規性和高效性爲未來的發展奠定了基礎。

【AiBase提要:】
🌟 Kokoro-82M 是一款新發布的語音合成模型，具有8200萬參數，支持多種語音包。
🎤 該模型在 TTS 領域表現卓越，曾在排行榜上排名第一，僅用不到100小時的音頻數據進行訓練。
📊 Kokoro 模型的訓練採用了開放許可證的數據，確保合規性，但目前仍存在一些功能限制。
詳情鏈接:https://huggingface.co/hexgrad/Kokoro-82M

7、Topview AI推全球首個支持生成手拿產品的數字人Product Avatar

Topview AI推出的“Product Avatar”數字人解決方案爲電商行業帶來了革命性的變化。商家只需上傳產品圖片，AI便能生成手持產品的數字人並進行口播講解，極大地節省了拍攝時間和成本。該產品還支持多種語言和個性化定製，標誌着電商營銷進入AI驅動的新階段。

【AiBase提要:】
🤖 AI數字人可快速生成，無需真人模特，節省時間和成本。
🌍 支持1000多種數字人模特和28種語言，滿足全球市場需求。
🎥 靈活高效的產品展示模式，商家可隨時更換產品，提升推廣效率。
詳情鏈接:https://www.topview.ai/ai-product-avatar

8、英偉達400萬美投資 MetAI 幾分鐘將CAD文件轉爲3D世界

Nvidia最近對初創公司MetAI進行了400萬美元的種子輪融資，旨在推動AI數字雙胞胎技術的發展。MetAI專注於利用AI和3D技術迅速將CAD文件轉換爲功能性3D環境，大幅縮短數字雙胞胎的創建時間。該公司計劃在2025年將總部遷至美國，並擴大研發團隊，以滿足日益增長的市場需求。

【AiBase提要:】
🌟 Nvidia投資400萬美元於初創公司MetAI，推動AI數字雙胞胎技術發展。
🤖 MetAI利用AI和3D技術將CAD文件快速轉換爲功能性3D環境，縮短數字雙胞胎創建時間。
🚀 MetAI計劃在2025年將總部遷至美國，並擴大研發團隊以應對日益增長的市場需求。

9、訊飛星火4.0Turbo七大核心能力升級:數學、代碼能力超GPT-4o

訊飛星火4.0Turbo的全面升級標誌着科大訊飛在人工智能領域的又一重大突破。此次升級不僅在文本生成、語言理解等七大核心能力上實現了顯著提升，更在數學和代碼能力方面超越了GPT-4o，尤其是在複雜數學問題的處理上展現出更強的能力。

【AiBase提要:】
🔢 數學能力顯著提升，超越GPT-4o，能夠處理複雜數學問題。
💻 新推出的星火深度推理模型X1，擁有1750億參數，適用於深層次數據分析。
📈 科大訊飛自2020年以來累計研發投入125億元，支持AI技術的持續發展。

10、Gemini AI 實現視覺處理新突破:實時視頻與靜態圖像同步分析

谷歌的Gemini AI最近在視覺處理領域取得了重要突破，能夠同時處理實時視頻和靜態圖像。這項技術通過實驗性應用AnyChat展示，標誌着人工智能在多流處理方面的進步。開發者可以利用Gemini的架構創建自定義平臺，應用於教育、藝術等多個領域，展現出廣泛的應用潛力。

【AiBase提要:】
🌟 Gemini AI實現實時視頻與靜態圖像的同步處理，打破以往限制。
🎨 AnyChat平臺展示了AI在教育、藝術等領域的廣泛應用潛力。
🚀 開發者可以輕鬆利用Gemini的技術構建自己的視覺AI應用。
詳情鏈接:https://huggingface.co/spaces/akhaliq/anychat

11、科大訊飛星火同傳語音大模型發佈:達到人類專家譯員水平

科大訊飛今日發佈了星火同傳語音大模型，標誌着國內首個具備端到端語音同傳能力的大模型的問世。這一技術的推出，顯著提升了翻譯的流暢性和準確性，尤其在國際交流場合中表現出色。該模型支持多種語言的即時翻譯，響應時間縮短至5秒以內，達到人類專家的翻譯水平，預示着未來國際交流的便捷與高效。

【AiBase提要:】
🚀 星火同傳語音大模型是國內首個具備端到端語音同傳能力的大模型，顯著提升了翻譯效果。
🌍 該模型在英譯中方面幾乎實現無延遲，適合國際展會和旅遊等場景使用。
⚡ 支持流式翻譯和自適應語速調節，翻譯的自然度和流暢度大幅提升，超越了國際同類技術。

12、OpenBMB發佈多模態模型MiniCPM-o2.6手機也能進行視覺和語音處理

OpenBMB推出的MiniCPM-o2.6是一款具有80億參數的多模態模型，旨在解決高計算資源需求與邊緣設備兼容性之間的挑戰。該模型在視覺、語音和語言處理方面表現出色，能夠高效運行於智能手機和平板電腦上。通過模塊化設計，MiniCPM-o2.6集成了多種強大組件，支持實時處理和多語言功能。

【AiBase提要:】
🌟 MiniCPM-o2.6是一款具有80億參數的多模態模型，能夠在邊緣設備上高效運行，支持視覺、語音和語言處理。
🚀 該模型在OpenCompass基準測試中表現優異，視覺任務成績超過GPT-4V，並具備多語言處理能力。
🛠️ MiniCPM-o2.6具備實時處理、語音克隆和情感控制等功能，適用於教育、醫療等多個行業的創新應用。
詳情鏈接:https://huggingface.co/openbmb/MiniCPM-o-2_6

AI日報：Kimi發佈多模態圖片理解模型API；周鴻禕參演AI短劇開拍；MiniMax-01系列模型開源；星火同傳語音大模型發佈

相關推薦

國產大模型再進化：Kimi 瞄準全球頂尖梯隊，下一代 K3 蓄勢待發

Kimi Work 迎重大升級：推出“目標模式”並打通外部應用插件

輸出速度飆升六倍，月之暗面正式上線 Kimi 2.7 Code 高速版大模型

極速編程體驗：Kimi K2.7 Code 高速版正式上線

月之暗面Kimi擬發行融合算力服務的AI原生信用卡