歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解:https://top.aibase.com/

1、快手推出 AI 作圖工具 Poify,聚焦電商市場

快手最近推出了AI作圖工具Poify,專注於電商領域的圖像處理,旨在提高商家在產品展示方面的效率和經濟性。Poify的核心功能包括文生圖和圖生圖,特別適用於電商需求,提供AI模特試衣、背景更換等創新能力,幫助商家降低成本並提升視覺吸引力。

image.png

【AiBase提要:】

🛍️ Poify專注於電商領域,提供高效的AI作圖解決方案,滿足商家多樣化需求。

📸 通過AI模特試衣等功能,商家可以輕鬆生成高質量商品展示圖,降低傳統拍攝成本。

🚀 快手希望通過Poify搶佔電商與AI融合的先機,推動行業進一步發展。

2、字節跳動發佈開源代碼模型Seed-Coder,8B參數引領編程新風潮

字節跳動的Seed團隊推出了全新的開源代碼模型Seed-Coder,憑藉其8B參數和卓越的代碼生成與推理能力,迅速引起業界的關注。Seed-Coder在多個基準測試中表現優異,展現了強大的編程潛力。其創新的數據處理方式和高效的訓練策略,不僅提升了代碼生成質量,也爲未來的AI驅動數據處理提供了新思路。

image.png

【AiBase提要:】

💻 Seed-Coder是一個8B參數的開源代碼模型,支持32K上下文,專注於代碼生成和軟件工程任務。

🔍 通過小型語言模型自動策劃和過濾代碼數據,大幅減少人工干預,提升數據篩選效率。

🏆 在多個基準測試中,Seed-Coder展現出色的代碼修復與生成能力,成爲輕量級編程模型的佼佼者。

詳情鏈接:https://github.com/ByteDance-Seed/Seed-Coder

3、2025年度十大 IP 揭曉,DeepSeek App等作品入選

2025世界 IP 經濟發展大會暨全球 IP 授權博覽會在廣州成功舉行,吸引了衆多專家和業內人士的關注。本次博覽會評選出年度十大 IP,參與評選的作品達到2368個,經過專家評審和網絡投票,最終確定了十個優秀作品。其中,《哪吒之魔童鬧海》憑藉其出色的故事情節和精美製作脫穎而出,成爲年度十大 IP 之一。

【AiBase提要:】

🎉 本次博覽會吸引了2368個參賽 IP,經過專家評審和網絡投票評選出十大 IP。

🌟 《哪吒之魔童鬧海》憑藉其出色的故事情節和製作質量成爲年度十大 IP 之一。

🎭 DeepSeek App、音樂話劇《受到召喚・敦煌》等多個作品展示了中國文化創意的多樣性。

4、Claude AI API 引入全新的網頁搜索功能

Anthropic最新推出的Claude AI API引入了網頁搜索功能,使其能夠實時訪問網絡信息。這一創新顯著提升了Claude在回答問題時的準確性,併爲傳統搜索引擎帶來了競爭壓力。開發者可以利用這一功能構建更加精準的智能體,應用於金融、法律、開發者工具和生產力等多個領域。

image.png

【AiBase提要:】

🌐 Claude AI API引入網頁搜索功能,能夠實時訪問網絡信息。

💼 提供四大應用場景,包括金融、法律、開發者工具和生產力。

📈 這一新功能爲開發者打造精準智能體提供了便利,提升了競爭力。

5、蘋果發佈FastVLM模型,可在iPhone上運行的極速視覺語言模型

蘋果正式推出FastVLM,這是一款專爲高分辨率圖像處理優化的視覺語言模型,具有極高的編碼速度和卓越的性能,特別適合在移動設備上運行。FastVLM的核心是其創新的FastViTHD編碼器,通過動態分辨率調整和層次化令牌壓縮等技術,顯著提升了效率。

【AiBase提要:】

🚀 FastVLM通過FastViTHD編碼器實現85倍的編碼速度提升,優化高分辨率圖像處理。

📈 在多模態任務中,FastVLM展現出色性能,尤其在SeedBench和TextVQA基準測試中表現突出。

🌐 FastVLM的開源將吸引開發者參與,推動蘋果在視覺語言模型領域的技術創新與生態建設。

詳情鏈接:https://github.com/apple/ml-fastvlm/

6、騰訊發佈全新 AI 框架 PrimitiveAnything:顛覆3D 形狀生成方式!

PrimitiveAnything 是騰訊與清華大學合作推出的革命性框架,旨在重新定義3D形狀的抽象與生成。通過將複雜形狀分解爲原始組件,框架不僅提升了幾何準確性,還增強了學習效率。其自動迴歸生成方式和大規模的 HumanPrim 數據集驗證了該框架在重構準確性和與人類抽象模式一致性方面的優越性,展現出強大的泛化能力,特別適合於高效的互動3D應用。

image.png

【AiBase提要:】

🛠️ PrimitiveAnything 框架通過解碼器式變換器生成可變長度的原始組件序列,提升了3D形狀生成的幾何準確性和學習效率。

📊 研究團隊構建了大規模的 HumanPrim 數據集,驗證了框架在重構準確性和與人類抽象模式一致性上的優越表現。

💻 該框架支持從文本或圖像輸入生成3D內容,用戶可輕鬆編輯生成結果,實現高建模質量和存儲節省。

詳情鏈接:https://huggingface.co/spaces/hyz317/PrimitiveAnything

7、首個智能文檔處理基準發佈:Gemini領跑但短板待補,多模態AI面臨現實挑戰

5月11日,智能文檔處理領域迎來了重要的里程碑,首個視覺-語言模型的統一基準測試IDP Leaderboard正式推出。該基準通過對9229份文檔和16個數據集的評估,全面分析了當前主流模型在多個核心任務上的表現。儘管Gemini2.5Flash在綜合實力上表現突出,但在OCR和分類任務中卻出現了意外的下滑,顯示出多模態推理能力與基礎文本識別功能之間的權衡問題。

2.jpg

【AiBase提要:】

📈 IDP Leaderboard通過16個數據集和9229份文檔,評估了主流模型在六大核心任務上的表現。

🤖 Gemini2.5Flash在綜合實力上領先,但在OCR和分類任務中表現不及前代產品,顯示出模型迭代中的平衡問題。

📝 長文檔處理和表格提取仍是視覺-語言模型的短板,最佳模型在這些任務上的得分仍未突破70%。

詳情鏈接:https://github.com/nanonets/idp-leaderboard

8、谷歌再破界限:Gemini2.5Pro實現6小時視頻理解,AI視覺能力邁入新紀元

谷歌的Gemini2.5Pro模型在視頻理解領域取得了重大突破,支持長達6小時的視頻分析和高達200萬Token的上下文窗口。通過API解析YouTube鏈接,模型在VideoMME基準測試中表現出色,準確率接近行業頂尖水平。其技術應用於教育、創意產業和商業分析等多個領域,展現了AI視覺能力的新紀元。

【AiBase提要:】

🎥 Gemini2.5Pro支持長達6小時的視頻分析,具備200萬Token的上下文窗口,首次實現通過API解析YouTube鏈接。

📊 在VideoMME基準測試中,模型準確率達到84.7%,與行業頂尖水平僅差0.5%。

💡 該模型可應用於教育、創意產業和商業分析,自動生成報告和交互式學習應用,提升用戶體驗。

9、用戶提問方式影響AI模型準確性,簡潔回答易導致錯誤信息

近期研究表明,用戶在請求簡短回答時,許多語言模型更容易生成錯誤或誤導性的信息。這項研究揭示了簡潔請求對模型準確性的負面影響,特別是在用戶使用自信措辭時,模型的糾正能力會顯著下降。這一現象在不同模型中表現差異明顯,較小的模型更容易受到影響。

【AiBase提要:】

📉 簡潔請求會導致語言模型的準確性下降,抗幻想能力可能降低多達20%。

🗣️ 用戶的語氣和措辭會影響模型的糾正能力,諂媚效應可能使模型更不願意挑戰錯誤信息。

🔍 不同模型在面對現實條件下表現差異明顯,小模型更容易受簡短和自信措辭的影響。

10、全球首款AI智能瀏覽器Fellou發佈:一鍵搞定研究、發帖、郵件,效率飆升5倍!

Fellou的發佈標誌着瀏覽器的重大變革,成爲全球首款具備AI智能自動化功能的瀏覽器。它不僅能進行傳統的搜索和瀏覽,還能思考、規劃並執行復雜任務,大幅提升用戶的工作效率。通過深度研究模式和工作流自動化,Fellou爲研究人員、營銷人員和開發者提供了強大的支持,尤其在跨平臺協作和數據處理方面展現出巨大的潛力。

【AiBase提要:】

🔍 深度研究模式通過後臺並行搜索多個平臺,自動生成完整報告,效率媲美實習生團隊。

⚙️ 深度工作流模式允許用戶通過自然語言指令自動化複雜任務,提升工作效率,支持跨平臺操作。

🔒 隱私保障方面,Fellou承諾不跟蹤用戶行爲,所有數據處理在本地完成,確保用戶信息安全。

詳情鏈接:https://fellou.ai

11、NVIDIA AI推出Audio-SDS,革新音效生成與多任務音頻處理

NVIDIA的Audio-SDS技術通過將Score Distillation Sampling擴展至音頻領域,顯著提升了音效生成和音源分離能力。該技術支持多任務音頻處理,用戶可通過文本提示生成定製化音效,降低了開發成本與時間。Audio-SDS的開源發佈爲創意產業和智能設備等多個領域提供了新的可能性,標誌着AI音頻處理的一個重要里程碑。

【AiBase提要:】

🎶 Audio-SDS利用SDS技術擴展至音頻領域,實現多任務處理,適用於音效生成和音源分離。

📝 通過文本條件控制,用戶可以定製音效設計,滿足創意和工業需求,提升用戶體驗。

🚀 開源策略促進AI技術普及,爲開發者和中小企業提供低成本音頻處理解決方案。

詳情鏈接:https://research.nvidia.com/labs/toronto-ai/Audio-SDS/

12、Kimi入駐小紅書,AI大模型從“投流大戰”轉向內容深耕

Kimi與小紅書的合作標誌着AI大模型在內容平臺上的新嘗試。雖然目前的入口尚未與小紅書的其他功能深度整合,但這次合作顯示出Kimi在流量焦慮下的轉型策略。未來,Kimi可能會通過內容與社區的結合,增強用戶黏性,儘管目前的功能仍顯謹慎,雙方的進一步合作仍需觀察。

image.png

【AiBase提要:】

📈 Kimi與小紅書達成合作,推出Kimi智能助手賬號,用戶可一鍵生成筆記。

💰 Kimi的投流預算在2025年第一季度縮減至1.5億元,顯示出其從買量驅動轉向內容與社區策略的轉型。

🔍 Kimi還與財新傳媒合作,引入財經數據,探索模型可信答覆方向,進一步觸達內容社區。