歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、OpenAI發佈o3:AI 推理能力的重大突破,得分高達87.5%

OpenAI最近推出了其最新的o-Model推理系列模型o3,標誌着在數學和科學推理領域的重大進展。o3在ARC AGI基準測試中得分87.5%,顯示出其在解決複雜邏輯和數學問題方面的顯著能力提升。該模型結合了神經符號學習與概率邏輯,能夠有效處理多步推理挑戰,展現出在教育、醫療和軟件開發等多個領域的廣泛應用潛力。

image.png

【AiBase提要:】

🧠 o3在ARC AGI基準測試中得分87.5%,展現出顯著的推理能力提升。

🔍 在高級數學測試中,o3的成功率達到96.7%,科學推理準確率提升10%。

💻 o3的應用潛力廣泛,能夠在教育、醫療和軟件開發等領域提供實際支持。

2、Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創建音效

Adobe Research與西北大學聯合推出的Sketch2Sound是一款創新的人工智能工具,旨在革新聲音設計師的工作流程。用戶可以通過哼唱、模仿聲音和簡單文本描述來生成專業音效。該系統分析音量、音色和音高,並結合文本生成所需聲音,特別適合Foley藝術家,提升影視音效的製作效率。

【AiBase提要:】

🎵 Sketch2Sound是一個新開發的AI工具,能通過哼唱和文本描述來創建音效。

🔊 該系統分析音量、音色和音高,將用戶的聲音輸入與文本結合生成目標音效。

🎬 特別適合Foley藝術家使用,能夠快速生成影視音效,提升工作效率。

詳情鏈接:https://hugofloresgarcia.art/sketch2sound/

3、百川智能發佈金融大模型Baichuan4-Finance

百川智能最近發佈了其全新的金融大模型Baichuan4-Finance,該模型通過創新的領域自約束訓練方案,在金融能力和通用能力上實現了雙重提升,顯著增強了在金融場景中的適用性。根據評測數據,Baichuan4-Finance在多個金融領域的準確率均超越了競爭對手GPT-4o。

image.png

【AiBase提要:】

🚀 Baichuan4-Finance通過領域自約束訓練方案,提升金融和通用能力。

🏆 在多個評測中,Baichuan4-Finance的整體準確率達到93.62%,領先GPT-4o近20%。

📊 該模型在銀行、保險、基金和證券等領域的準確率均突破95%。

詳情鏈接:https://platform.baichuan-ai.com/finPage

4、清華大學聯合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性

ColorFlow是清華大學與騰訊ARC實驗室聯合研發的新型圖像序列上色模型,旨在解決黑白圖像上色時角色身份一致性的問題。該模型通過雙分支設計和創新的檢索增強上色管道,顯著提升了上色效果與效率。ColorFlow在多個指標上超越了現有先進模型,展現出更高的美學質量,適用於黑白漫畫、線條藝術等多種藝術場景。

image.png

【AiBase提要:】

🌟 ColorFlow是創新的黑白圖像序列上色模型,能夠保持角色身份一致性。

🎨 該模型採用雙分支設計,分別用於色彩身份提取和實際上色,提升了上色的效果和效率。

🏆 ColorFlow在多項指標上超越了現有的先進模型,展現出更高的美學質量和實用性。

詳情鏈接:https://zhuang2002.github.io/ColorFlow/

5、CAP4D:上傳參考圖即可生成高質量4D角色頭像

CAP4D模型是一項革命性的技術,能夠通過任意數量的參考圖像生成高質量的4D頭像。該模型採用雙階段工作流程,首先生成不同視角和表情的圖像,然後結合參考圖像重建可實時控制的4D頭像。通過使用先進的面部追蹤技術和隨機採樣的方式,CAP4D顯著提升了圖像重建效果和細節呈現。

image.png

【AiBase提要:】

🌟 CAP4D模型通過任意數量的參考圖像生成高質量的4D頭像,採用雙階段工作流程。

🖼️ 該技術可以生成多種不同視角的頭像,顯著提高了圖像重建效果和細節呈現。

🎤 CAP4D與語音驅動動畫模型相結合,實現音頻驅動的動態頭像,拓展了虛擬頭像的應用場景。

6、OpenAI推出ChatGPT新記憶功能:能跨對話回憶用戶交流

OpenAI最近推出了一項全新的記憶功能,使得其AI助手ChatGPT能夠在用戶開啓新對話時回憶起以往的交流內容。這一更新旨在提升用戶體驗,允許用戶全面管理自己的記憶設置,包括刪除或歸檔特定信息。與此類似,谷歌也加快了其聊天機器人Gemini的記憶功能的推出,顯示出AI行業在個性化服務方面的持續努力。

image.png

【AiBase提要:】

🔍 OpenAI推出新記憶功能,ChatGPT可跨對話回憶用戶過往交流。

🔒 用戶可隨時管理記憶設置,刪除或歸檔特定信息。

🤖 谷歌也推出類似功能,旨在提升AI助手的個性化服務。

7、震驚!你的AI聊天對象竟然偷偷學會了“讀心術”!—— INFP帶你解鎖雙人對話新姿勢

INFP技術的出現,標誌着AI虛擬頭像在雙人對話中的互動能力得到了質的飛躍。通過模仿人類的表情和動作,INFP使得虛擬角色能夠在對話中展現出真實的互動,彷彿與真人交流。其背後的技術創新,不僅提升了用戶體驗,也爲未來的AI對話系統提供了新的可能性。

image.png

【AiBase提要:】

🤖 INFP技術通過模仿人類的表情和動作,提升了AI虛擬頭像的互動能力。

🎤 該技術利用音頻分析,動態調整AI頭像的狀態,實現自然流暢的對話。

📊 DyConv數據集爲INFP提供了豐富的對話素材,確保學習效果和表現的優越性。

詳情鏈接:https://grisoon.github.io/INFP/

8、DeepSeek開源大模型開發者之一羅福莉將加盟小米

羅福莉,DeepSeek-V2的關鍵開發者,近期宣佈加入小米,擔任AI實驗室的領導,負責大模型團隊的建設。此舉引發廣泛關注,尤其是在小米加大大模型領域佈局的背景下。羅福莉擁有北京大學的碩士學位,並在自然語言處理領域表現突出,曾在阿里巴巴達摩院任職,參與多語言預訓練模型的開發。

【AiBase提要:】

🌟 羅福莉將加盟小米,領導AI實驗室的大模型團隊。

💰 雷軍對小米在AI大模型領域的發展表示擔憂,並高薪挖人。

📈 小米AI實驗室已經設立專門團隊,致力於推動大模型技術的發展。

9、AI終於邁過這道檻!Livekit 開源模型精準識別“你是否說完”!

在語音助手和客服機器人領域,如何準確判斷用戶是否說完一直是個難題。Livekit推出的開源精準語音輪次檢測模型,通過結合Transformer模型與傳統語音活動檢測,顯著提升了人機對話的自然度與流暢性。該模型能夠減少AI的錯誤打斷,提升用戶體驗,未來有望使人機對話更加智能和自然。

【AiBase提要:】

🔍 結合Transformer和傳統VAD技術,提升語音輪次檢測的準確性。

💬 新模型減少AI的錯誤打斷率達85%,使人機對話更加自然。

🎥 演示視頻展示AI耐心等待用戶說完,提升交互體驗。

詳情鏈接:https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector

10、李飛飛團隊前瞻性研究 多模態AI模型初顯空間智能

斯坦福大學教授李飛飛及其團隊的研究揭示了多模態大模型在空間智能方面的初步能力,展示了它們在記憶和回憶空間的潛力。研究開發了VSI-Bench工具,評估視覺空間智能,儘管模型表現仍低於人類,但在某些任務上已接近人類水平。

image.png

【AiBase提要:】

🛠️ 研究團隊推出VSI-Bench工具,評估視覺空間智能,包含5000多個高質量問答對。

📈 多模態模型在某些任務上已接近人類水平,Gemini-1.5Pro在房間大小估計任務中表現突出。

🌍 李飛飛創辦的World Labs專注於開發具備空間智能的AI模型,已獲得多家知名機構投資。

11、特朗普正式任命白宮AI政策高級顧問

近日,美國前總統唐納德・特朗普確認Sriram Krishnan擔任白宮科技政策辦公室的人工智能高級政策顧問。Krishnan曾是Andreessen Horowitz的合夥人,將負責協調政府的AI政策,並與前PayPal首席運營官David Sacks合作。

image.png

【AiBase提要:】

🌟 Sriram Krishnan被任命爲特朗普的人工智能政策高級顧問,負責協調政府的AI政策。

🤝 他將與前PayPal首席運營官David Sacks合作,共同推動AI和加密貨幣相關政策。

💼 Krishnan曾在多家知名科技公司擔任領導職務,並在《紐約時報》中分享了對AI趨勢的看法。

12、閃極AI拍拍鏡宣佈預售售罄:999元5萬臺一天搶光

閃極科技最近推出了其首款AI拍拍鏡,標誌着國內AI拍攝眼鏡領域的重要進展。該產品以1499元的價格上市,首批5萬臺以999元的優惠價迅速售罄,顯示出市場的熱烈反響。此外,閃極還推出了一個吸引人的促銷活動,用戶在300天內打卡200天可獲得全額退款。

image.png

【AiBase提要:】

📸 這款AI拍拍鏡售價1499元,首批5萬臺以999元的優惠價售罄,顯示出強勁的市場需求。

🎉 用戶在300天內打卡200天可獲得全額退款,增加了產品的吸引力。

🔍 該眼鏡搭載索尼1600萬像素攝像頭,支持多種智能功能,提供豐富的用戶體驗。