歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。
新鮮AI產品點擊瞭解:https://top.aibase.com/
1、Anthropic宣佈Claude 3 Haiku支持微調
Anthropic宣佈用戶現在可以在Amazon Bedrock中微調最新模型Claude 3 Haiku,提高模型在特定任務上的效果。微調功能使用戶能根據業務需求定製模型知識和能力,帶來諸多好處。

【AiBase提要:】
🛠️ 用戶可以通過高質量的提示-完成對進行微調,提升模型的專業能力。
⚡ Claude 3 Haiku是最快和最具成本效益的模型,適合專門任務使用。
🔒 客戶的專有訓練數據保持在AWS環境內,確保安全性和低風險。
詳情鏈接:https://aws.amazon.com/cn/bedrock/claude/
2、Heygen推對口型工具 上傳照片+音頻即可說話、唱歌
最近,AI照片“復活術”在網絡上掀起波瀾,Heygen推出對口型工具,讓照片中人物根據音頻內容說話、唱歌,支持長達20秒音頻,脣形與表情同步。Heygen融資5億美元,由Benchmark領投,發展勢頭強勁。中國區用戶受限制,令部分用戶失望。Heygen利用生成式AI技術製作影片,已籌集7400萬美元。
【AiBase提要:】
🌟 Heygen推出對口型工具,讓照片中人物根據音頻內容說話、唱歌,支持長達20秒音頻。
💡 Heygen融資5億美元,由Benchmark領投,發展勢頭強勁。
🔒 中國區用戶受限制,令部分用戶失望。Heygen利用生成式AI技術製作影片,已籌集7400萬美元。
詳情鏈接:https://labs.heygen.com/guest/expressive-photo-avatar
3、百度飛槳PaddleOCR發佈v2.8.0新版本
PaddleOCR v2.8.0作爲飛槳深度學習開源框架下的文字識別開發套件,發佈了里程碑式的更新。這個版本引入了前沿的OCR技術,包括PaddleOCR算法模型挑戰賽的冠軍方案,如場景文本識別算法SVTRv2和表格識別算法SLANet-LCNetV2,爲OCR領域樹立了新的標準。項目結構經過深度優化,非核心模塊被遷移至新倉庫,使項目更專注於OCR核心技術。新版本解決了歷史疑難問題,提升了用戶體驗,增強了穩定性、兼容性和性能。
【AiBase提要:】
🚀 PaddleOCR v2.8.0引入了前沿的OCR技術,包括SVTRv2和SLANet-LCNetV2,樹立了OCR領域新標準。
🔧 項目結構優化,非核心模塊遷移至新倉庫,專注於OCR核心技術。
🌟 新版本解決歷史疑難問題,提升用戶體驗,增強穩定性、兼容性和性能。
詳情鏈接:https://github.com/PaddlePaddle/PaddleOCR
4、百度稱蘿蔔快跑安全水平接近C919飛機
蘿蔔快跑公司推出第六代無人車,成功接入百度ApolloADFM大模型,安全性超過人類駕駛員10倍以上。百度對無人車安全性充滿信心,每輛車及乘客投保500萬元保險。運行數據顯示出險率僅爲人類司機的1/14,安全性表現卓越。百度Apollo自動駕駛技術已行駛超過1億公里,無重大傷亡事故,成功實現武漢全域、全時空自動駕駛服務覆蓋。
【AiBase提要:】
🚗 無人車安全性超過人類駕駛員10倍以上
💼 每輛車及乘客投保500萬元保險
🛣️ 運行數據顯示出險率僅爲人類司機的1/14
5、智譜AI宣佈開源視頻理解模型CogVLM2-Video
智譜AI最新開源的CogVLM2-Video模型在視頻理解領域取得顯著進展,通過解決時間信息丟失問題,實現了優異的性能表現。該模型不僅在視頻字幕生成和時間定位方面表現出色,還爲視頻生成和摘要等任務提供了強大工具。通過自動生成豐富的時間定位數據集,模型在公共視頻理解基準上達到最新性能,展現出卓越的性能。

【AiBase提要:】
⏰ CogVLM2-Video通過引入多幀視頻圖像和時間戳作爲編碼器輸入,解決了現有視頻理解模型在處理時間信息丟失問題上的侷限。
💡 模型利用自動化的時間定位數據構建方法,生成了3萬條與時間相關的視頻問答數據,爲訓練提供豐富的時間定位數據。
🚀 CogVLM2-Video在多個公開評測集上展現了卓越性能,包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化評估指標上的優異表現。
詳情鏈接:https://github.com/THUDM/CogVLM2
6、騰訊AI實驗室的項目vta-ldm:輸入視頻生成對齊音頻
隨着文本到視頻生成技術的進步,研究者們關注如何生成與視頻輸入在語義和時間上對齊的音頻內容。騰訊AI實驗室推出VTA-LDM模型,通過隱含對齊技術提供高效音頻生成解決方案,拓展視頻生成應用場景。

【AiBase提要:】
🎬 研究聚焦於生成與視頻輸入在語義和時間上對齊的音頻內容。
🔍 探討了視覺編碼器、輔助嵌入和數據增強技術的重要性。
📈 實驗結果顯示模型在視頻到音頻生成領域達到先進水平,推動相關技術發展。
詳情鏈接:https://top.aibase.com/tool/vta-ldmVTA-LDM
7、GPT-4o和Sonnet-3.5在視力測試中敗北,VLM們竟是“盲人”?
這篇文章揭示了視覺語言模型(VLMs)在圖像處理能力上的侷限性,通過BlindTest測試發現它們並非像人類一樣能準確理解圖像細節。文章呼籲對VLMs的視覺理解能力持謹慎態度,警示AI並未達到完全替代人類的水平。
【AiBase提要:】
👓 VLMs在BlindTest測試中表現不佳,平均準確率僅56.20%
🔍 VLMs處理圖像時缺乏精確的空間信息,難以判斷圖形重疊或相交
🔢 VLMs在數數時存在偏好,對數字5特別熟悉,表現不穩定
論文地址:https://arxiv.org/pdf/2407.06581
文章詳細內容:https://www.chinaz.com/ainews/10186.shtml
8、商湯科技發佈「東風」泰語大模型
商湯科技與泰國DTGO集團及Quinnnova聯合發佈了名爲「東風」的泰語大模型(DTLM),這是全球首個能夠在泰文、中文、英文三種語言環境下高效工作的AI大語言模型。該模型結合了商湯的基模型和算力優勢以及DTGO對泰國語言文化的深入瞭解,旨在提供本地化的生成式AI體驗。
【AiBase提要:】
⚙️ 「東風」是全球首個能夠在泰文、中文、英文三種語言環境下高效工作的AI大語言模型。
🌏 模型結合了商湯的基模型和算力優勢以及DTGO對泰國語言文化的深入瞭解,旨在提供本地化的生成式AI體驗。
💡 模型將服務於泰國的個人用戶和企業,滿足多語言需求,同時爲當地企業和政府客戶提供創新的AI解決方案,推動泰國AI生態系統的發展。
9、三星 Galaxy AI 推出“數學輔導”新模式 告訴孩子解題技巧
三星在昨日的Unpacked活動上宣佈了Galaxy AI的重大進展,推出了專爲幫助兒童完成家庭作業而設計的AI助手。這一舉措展現了三星在人工智能領域的雄心壯志,爲智能手機市場帶來新的競爭維度,推動整個行業向更智能、更有教育價值的方向發展。

【AiBase提要:】
🚀 三星發佈Galaxy AI,覆蓋高達2億臺設備,展現雄心壯志。
🔍 家庭作業助手基於Galaxy AI的“圓圈搜索”功能,引導孩子完成問題解決過程。
📚 家庭作業助手提供數學問題解決,培養孩子獨立思考能力。
10、三家歐洲汽車製造商將集成ChatGPT功能 提升駕駛體驗
Stellantis旗下的法國標緻、德國歐寶和英國沃克斯豪爾將整合ChatGPT人工智能技術,通過SoundHound的ChatAI系統提供語音助手功能,改善駕駛體驗。這一合作標誌着汽車科技的發展,將帶來更自然、流暢的駕駛交互體驗。
【AiBase提要:】
🚗 Stellantis旗下Peugeot、Opel和Vauxhall將集成ChatGPT人工智能技術,提升汽車產品功能。
🌍 跨越17個國家,支持12種語言的語音助手系統,爲更多駕駛者提供便利。
📱 SoundHound的ChatAI將帶來更自然的駕駛交互體驗,推動汽車科技發展。
11、谷歌正通過Gemini AI訓練機器人,提高導航和任務完成能力
谷歌正在利用Gemini AI訓練機器人,提高其導航和任務完成能力。通過Gemini1.5Pro,機器人可以執行自然語言指令,計劃執行超出導航範圍的任務。研究表明,Gemini讓機器人成功執行用戶指令的成功率高達90%。儘管處理指令需要一定時間,但這些機器人有望幫助人們完成各種任務,如找到遺失物品。

【AiBase提要:】
🤖 Gemini AI訓練機器人,提高導航和任務完成能力
🧠 Gemini1.5Pro讓機器人執行自然語言指令
🔍 研究發現Gemini讓機器人能夠計劃執行超出導航範圍的指令
12、OpenAI首次披露AGI評估標準:ChatGPT僅爲第一級
OpenAI公司公佈了內部量表,用於追蹤其大型語言模型在通用人工智能(AGI)方面的進展,展示了其在AGI領域的雄心。該舉措爲業界提供了衡量AI發展的新標準,引發了對AI安全和倫理的擔憂。
【AiBase提要:】
🚀 OpenAI創建AGI評估標準,展示雄心
💡 量表分爲五級,包括能創造新創新的AI和執行整個組織工作的AI
⏳ 專家對AGI實現時間表存在分歧,OpenAI與洛斯阿拉莫斯國家實驗室合作探索AI在生物科學研究中的應用
