歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。
新鮮AI產品點擊瞭解:https://app.aibase.com/zh
1、Gemini 3 Flash登場:免費、極速、智力反超Pro,谷歌AI全面進入“零延遲”時代
谷歌發佈新一代輕量級模型Gemini3Flash,其響應速度達到前代三倍、近乎‘零延遲’,並在多項高難度基準測試中反超同代旗艦Gemini3Pro,成爲史上首個在同期對比中‘小弟幹翻大哥’的Flash模型。

【AiBase提要:】
🧪 在代碼修復權威榜單SWE-bench上,Gemini3Flash以78%得分小幅領先Gemini3Pro(76.2%)
🧠 在博士級推理測試GPQA Diamond中拿下90.4%高分
⚡ 在極難綜合評估Humanity’s Last Exam中取得33.7%成績,顯著優於前代旗艦Gemini2.5Pro
2、火山引擎FORCE大會亮劍:豆包大模型1.8+Seedance 1.5 Pro發佈,日均50萬億Tokens登頂中國第一
火山引擎FORCE大會發布了豆包大模型1.8和視頻生成模型Seedance 1.5 Pro,並推出“AI節省計劃”,旨在降低企業使用大模型的成本門檻。豆包大模型1.8在多個關鍵維度有顯著提升,而Seedance 1.5 Pro則提升了視頻生成質量與一致性。此外,豆包大模型日均Tokens使用量已突破50萬億,穩居中國第一、全球第三,標誌着其從技術產品走向大規模產業應用。

【AiBase提要:】
🧠 豆包大模型1.8在推理、多語言、代碼生成與工具調用等關鍵維度實現顯著提升。
🎥 Seedance 1.5 Pro支持更長時長、更高幀率的可控視頻內容創作,爲短視頻、廣告、遊戲等領域提供工業化級視覺生成能力。
💰 “AI節省計劃”通過模型壓縮、推理優化、資源調度等技術手段,降低企業使用大模型的成本門檻。
3、蘋果開源 SHARP 模型:告別漫長等待,1秒讓平面照片躍升3D 空間
蘋果公司近日開源了名爲 SHARP 的新型 AI 模型,該模型能夠將一張普通的2D照片轉化爲具有真實物理比例的3D場景,僅需不到一秒鐘。SHARP的核心技術是“3D高斯潑濺”技術,它通過深度訓練掌握了通用的空間幾何規律,只需一次快速掃描就能預測出數百萬個帶有光影信息的“高斯球”位置。SHARP的成像質量領先於業內最強模型,支持真實的相機移動模擬。目前,蘋果已將SHARP的完整代碼及資源發佈在GitHub平臺供全球開發者下載。
【AiBase提要:】
⚡ 速度實現量級突破 : SHARP 模型將2D 轉3D 的處理速度提升了三個數量級,實現了不到一秒的近乎實時轉換體驗。
🌐 領先的3D 生成技術 :基於3D 高斯潑濺技術,模型通過單次神經網絡前饋即可預測數百萬個3D 點位,精準還原真實物理比例。
🔓 全面開源生態 :蘋果已在 GitHub 開源 SHARP 的代碼與資源,旨在加速全球開發者在空間計算和3D 內容領域的創新。
4、Meta發佈SAM Audio:全球首個支持“點擊分離聲音”的多模態音頻模型,一鍵提取吉他聲、人聲或狗叫
Meta發佈了SAM Audio,這是全球首個支持多模態音頻分離的模型,能夠通過文本、視覺和時間片段提示,一鍵提取目標聲音,如吉他聲、人聲或狗叫。該技術首次將人類自然感知聲音的方式復刻到AI系統中,具有革命性的意義。

【AiBase提要:】
🎧 文本提示:通過語義描述提取對應聲源。
👁️ 視覺提示:點擊視頻中的發聲物體分離音頻。
⏱️ 時間片段提示:標記時間區間自動處理同類聲音。
詳情鏈接:https://ai.meta.com/samaudio/ https://github.com/facebookresearch/sam-audio
5、MiniMax通過港交所上市聆訊,國產大模型“第一股”或將花落上海
MiniMax通過港交所上市聆訊,有望成爲首家登陸資本市場的國產大模型公司,其核心資產爲大語言模型與多模態生成技術,這標誌着資本市場對大模型商業化路徑的認可度提升,並可能爲後續AI公司IPO開闢通道。
【AiBase提要:】
🚀 MiniMax通過港交所上市聆訊,成爲首家登陸資本市場的國產大模型公司。
💼 其核心資產爲大語言模型與多模態生成技術,不同於傳統計算機視覺企業。
📈 若成功上市,將驗證資本市場對大模型商業化路徑的認可度,並可能爲後續AI公司IPO開闢通道。
6、OpenAI 正式官宣:開發者可向ChatGPT提交應用程序
OpenAI 向全球開發者開放 ChatGPT 應用提交權限,標誌着 ChatGPT 進階爲 AI 原生應用平臺。開發者可通過最新指南提交作品,通過審覈後將出現在 ChatGPT 應用目錄中,賦予 ChatGPT 實操能力。

【AiBase提要:】
🚀 生態大門開啓:OpenAI 開放應用提交,開發者可將功能整合進 ChatGPT 供全球用戶發現。
🛒 應用目錄上線:用戶可通過工具菜單或訪問 chatgpt.com/apps 搜索和瀏覽精選 AI 應用。
💰 盈利前景明確:支持鏈接外部網站交易實體商品,並計劃探索數字商品變現模式。
7、千問 App 接入高德:阿里 AI 走入現實世界
千問 App 接入高德地圖,標誌着其具備了物理世界的理解與行動能力,能夠處理複雜的現實場景需求,並計劃進一步接入更多核心場景,打造一個強大的超級入口。

【AiBase提要:】
🚀 千問 App 接入高德地圖,實現從回答問題到地理空間推理的跨越。
🧭 千問能生成可視化決策卡片,直接喚起導航或打車服務。
🛍️ 阿里計劃將千問打造爲能調用現實履約網絡的超級入口。
8、微軟開源 TRELLIS.2:一鍵將圖片轉爲高精度 3D 模型
微軟開源了TRELLIS.2,這是一款高效的圖像到3D模型生成工具,能夠快速生成高質量的3D模型,並且支持多種平臺使用。TRELLIS.2在NVIDIA H100顯卡的支持下表現出色,能夠在極短時間內完成高分辨率模型的生成。此外,它還提供了PBR四件套貼圖,非常適合電商場景的應用。

【AiBase提要:】
🌟 TRELLIS.2是一款微軟開源的圖像到3D模型生成工具,能迅速生成高質量3D模型。
⏱️ 該工具在NVIDIA H100顯卡上生成512³分辨率模型僅需3秒,效率極高。
🛒 附帶PBR四件套貼圖,方便電商用戶快速將產品轉爲3D展示。
詳情鏈接:https://huggingface.co/microsoft/TRELLIS.2-4B
9、xAI 推最快語音代理 API,支持中文實時搜索與情緒控制
xAI 發佈的 Grok 語音代理 API 在實時語音 AI 領域展現出卓越性能和極具競爭力的價格。該模型在音頻推理基準測試中表現優異,響應速度遠超競品,並支持多語言自動檢測、實時網頁搜索與情緒控制等功能,爲開發者提供了強大的工具。
【AiBase提要:】
🔥 Grok 語音代理 API 以每分鐘 0.05 美元的價格推出,性價比極高。
🌐 支持包括中文在內的多種語言自動檢測與自由切換,適應全球用戶需求。
🧠 深度集成實時網頁搜索與推理能力,確保回覆內容緊跟最新資訊。
10、豆包AI眼鏡明年上市!聯合潤欣科技、老鳳祥打造 2000 元內智能穿戴新品
豆包AI眼鏡即將在 2025 年初上市,由火山引擎提供技術支持,潤欣科技負責硬件設計,並與老鳳祥合作打造時尚外觀。該產品定價 2000 元以內,支持實時語音助手、環境感知等場景化功能,標誌着字節跳動以“大模型+硬件+渠道”策略搶佔下一代人機交互入口。
【AiBase提要:】
🧠 豆包AI眼鏡依託火山引擎的RTC技術,實現低延遲語音交互與雲端協同。
💼 聯合潤欣科技和老鳳祥,打造融合大模型能力的親民級AI眼鏡。
🛒 定價 2000 元以內,預計 2025 年初上市,推動智能穿戴走向生活剛需。
