AI日報：Claude 3 Haiku支持微調；Heygen推對口型工具；百度稱蘿蔔快跑安全水平接近C919飛機

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。

新鮮AI產品點擊瞭解：https://top.aibase.com/

1、Anthropic宣佈Claude 3 Haiku支持微調

Anthropic宣佈用戶現在可以在Amazon Bedrock中微調最新模型Claude 3 Haiku，提高模型在特定任務上的效果。微調功能使用戶能根據業務需求定製模型知識和能力，帶來諸多好處。

【AiBase提要:】
🛠️ 用戶可以通過高質量的提示-完成對進行微調，提升模型的專業能力。
⚡ Claude 3 Haiku是最快和最具成本效益的模型，適合專門任務使用。
🔒 客戶的專有訓練數據保持在AWS環境內，確保安全性和低風險。
詳情鏈接:https://aws.amazon.com/cn/bedrock/claude/

2、Heygen推對口型工具上傳照片+音頻即可說話、唱歌

最近，AI照片“復活術”在網絡上掀起波瀾，Heygen推出對口型工具，讓照片中人物根據音頻內容說話、唱歌，支持長達20秒音頻，脣形與表情同步。Heygen融資5億美元，由Benchmark領投，發展勢頭強勁。中國區用戶受限制，令部分用戶失望。Heygen利用生成式AI技術製作影片，已籌集7400萬美元。

【AiBase提要:】
🌟 Heygen推出對口型工具，讓照片中人物根據音頻內容說話、唱歌，支持長達20秒音頻。
💡 Heygen融資5億美元，由Benchmark領投，發展勢頭強勁。
🔒 中國區用戶受限制，令部分用戶失望。Heygen利用生成式AI技術製作影片，已籌集7400萬美元。
詳情鏈接:https://labs.heygen.com/guest/expressive-photo-avatar

3、百度飛槳PaddleOCR發佈v2.8.0新版本

PaddleOCR v2.8.0作爲飛槳深度學習開源框架下的文字識別開發套件，發佈了里程碑式的更新。這個版本引入了前沿的OCR技術，包括PaddleOCR算法模型挑戰賽的冠軍方案，如場景文本識別算法SVTRv2和表格識別算法SLANet-LCNetV2，爲OCR領域樹立了新的標準。項目結構經過深度優化，非核心模塊被遷移至新倉庫，使項目更專注於OCR核心技術。新版本解決了歷史疑難問題，提升了用戶體驗，增強了穩定性、兼容性和性能。

【AiBase提要:】
🚀 PaddleOCR v2.8.0引入了前沿的OCR技術，包括SVTRv2和SLANet-LCNetV2，樹立了OCR領域新標準。
🔧 項目結構優化，非核心模塊遷移至新倉庫，專注於OCR核心技術。
🌟 新版本解決歷史疑難問題，提升用戶體驗，增強穩定性、兼容性和性能。
詳情鏈接:https://github.com/PaddlePaddle/PaddleOCR

4、百度稱蘿蔔快跑安全水平接近C919飛機

蘿蔔快跑公司推出第六代無人車，成功接入百度ApolloADFM大模型，安全性超過人類駕駛員10倍以上。百度對無人車安全性充滿信心，每輛車及乘客投保500萬元保險。運行數據顯示出險率僅爲人類司機的1/14，安全性表現卓越。百度Apollo自動駕駛技術已行駛超過1億公里，無重大傷亡事故，成功實現武漢全域、全時空自動駕駛服務覆蓋。

【AiBase提要:】
🚗 無人車安全性超過人類駕駛員10倍以上
💼 每輛車及乘客投保500萬元保險
🛣️ 運行數據顯示出險率僅爲人類司機的1/14

5、智譜AI宣佈開源視頻理解模型CogVLM2-Video

智譜AI最新開源的CogVLM2-Video模型在視頻理解領域取得顯著進展，通過解決時間信息丟失問題，實現了優異的性能表現。該模型不僅在視頻字幕生成和時間定位方面表現出色，還爲視頻生成和摘要等任務提供了強大工具。通過自動生成豐富的時間定位數據集，模型在公共視頻理解基準上達到最新性能，展現出卓越的性能。

【AiBase提要:】
⏰ CogVLM2-Video通過引入多幀視頻圖像和時間戳作爲編碼器輸入，解決了現有視頻理解模型在處理時間信息丟失問題上的侷限。
💡 模型利用自動化的時間定位數據構建方法，生成了3萬條與時間相關的視頻問答數據，爲訓練提供豐富的時間定位數據。
🚀 CogVLM2-Video在多個公開評測集上展現了卓越性能，包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化評估指標上的優異表現。
詳情鏈接:https://github.com/THUDM/CogVLM2

6、騰訊AI實驗室的項目vta-ldm：輸入視頻生成對齊音頻

隨着文本到視頻生成技術的進步，研究者們關注如何生成與視頻輸入在語義和時間上對齊的音頻內容。騰訊AI實驗室推出VTA-LDM模型，通過隱含對齊技術提供高效音頻生成解決方案，拓展視頻生成應用場景。

【AiBase提要:】
🎬 研究聚焦於生成與視頻輸入在語義和時間上對齊的音頻內容。
🔍 探討了視覺編碼器、輔助嵌入和數據增強技術的重要性。
📈 實驗結果顯示模型在視頻到音頻生成領域達到先進水平，推動相關技術發展。
詳情鏈接:https://top.aibase.com/tool/vta-ldmVTA-LDM

7、GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

這篇文章揭示了視覺語言模型（VLMs）在圖像處理能力上的侷限性，通過BlindTest測試發現它們並非像人類一樣能準確理解圖像細節。文章呼籲對VLMs的視覺理解能力持謹慎態度，警示AI並未達到完全替代人類的水平。

【AiBase提要:】
👓 VLMs在BlindTest測試中表現不佳，平均準確率僅56.20%
🔍 VLMs處理圖像時缺乏精確的空間信息，難以判斷圖形重疊或相交
🔢 VLMs在數數時存在偏好，對數字5特別熟悉，表現不穩定
論文地址:https://arxiv.org/pdf/2407.06581
文章詳細內容：https://www.chinaz.com/ainews/10186.shtml

8、商湯科技發佈「東風」泰語大模型

商湯科技與泰國DTGO集團及Quinnnova聯合發佈了名爲「東風」的泰語大模型（DTLM），這是全球首個能夠在泰文、中文、英文三種語言環境下高效工作的AI大語言模型。該模型結合了商湯的基模型和算力優勢以及DTGO對泰國語言文化的深入瞭解，旨在提供本地化的生成式AI體驗。

【AiBase提要:】
⚙️ 「東風」是全球首個能夠在泰文、中文、英文三種語言環境下高效工作的AI大語言模型。
🌏 模型結合了商湯的基模型和算力優勢以及DTGO對泰國語言文化的深入瞭解，旨在提供本地化的生成式AI體驗。
💡 模型將服務於泰國的個人用戶和企業，滿足多語言需求，同時爲當地企業和政府客戶提供創新的AI解決方案，推動泰國AI生態系統的發展。

9、三星 Galaxy AI 推出“數學輔導”新模式告訴孩子解題技巧

三星在昨日的Unpacked活動上宣佈了Galaxy AI的重大進展，推出了專爲幫助兒童完成家庭作業而設計的AI助手。這一舉措展現了三星在人工智能領域的雄心壯志，爲智能手機市場帶來新的競爭維度，推動整個行業向更智能、更有教育價值的方向發展。

【AiBase提要:】
🚀 三星發佈Galaxy AI，覆蓋高達2億臺設備，展現雄心壯志。
🔍 家庭作業助手基於Galaxy AI的“圓圈搜索”功能，引導孩子完成問題解決過程。
📚 家庭作業助手提供數學問題解決，培養孩子獨立思考能力。

10、三家歐洲汽車製造商將集成ChatGPT功能提升駕駛體驗

Stellantis旗下的法國標緻、德國歐寶和英國沃克斯豪爾將整合ChatGPT人工智能技術，通過SoundHound的ChatAI系統提供語音助手功能，改善駕駛體驗。這一合作標誌着汽車科技的發展，將帶來更自然、流暢的駕駛交互體驗。

【AiBase提要:】
🚗 Stellantis旗下Peugeot、Opel和Vauxhall將集成ChatGPT人工智能技術，提升汽車產品功能。
🌍 跨越17個國家，支持12種語言的語音助手系統，爲更多駕駛者提供便利。
📱 SoundHound的ChatAI將帶來更自然的駕駛交互體驗，推動汽車科技發展。

11、谷歌正通過Gemini AI訓練機器人，提高導航和任務完成能力

谷歌正在利用Gemini AI訓練機器人，提高其導航和任務完成能力。通過Gemini1.5Pro，機器人可以執行自然語言指令，計劃執行超出導航範圍的任務。研究表明，Gemini讓機器人成功執行用戶指令的成功率高達90%。儘管處理指令需要一定時間，但這些機器人有望幫助人們完成各種任務，如找到遺失物品。

【AiBase提要:】
🤖 Gemini AI訓練機器人，提高導航和任務完成能力
🧠 Gemini1.5Pro讓機器人執行自然語言指令
🔍 研究發現Gemini讓機器人能夠計劃執行超出導航範圍的指令

12、OpenAI首次披露AGI評估標準：ChatGPT僅爲第一級

OpenAI公司公佈了內部量表，用於追蹤其大型語言模型在通用人工智能（AGI）方面的進展，展示了其在AGI領域的雄心。該舉措爲業界提供了衡量AI發展的新標準，引發了對AI安全和倫理的擔憂。

【AiBase提要:】
🚀 OpenAI創建AGI評估標準，展示雄心
💡 量表分爲五級，包括能創造新創新的AI和執行整個組織工作的AI
⏳ 專家對AGI實現時間表存在分歧，OpenAI與洛斯阿拉莫斯國家實驗室合作探索AI在生物科學研究中的應用

AI日報：Claude 3 Haiku支持微調；Heygen推對口型工具；百度稱蘿蔔快跑安全水平接近C919飛機

相關推薦

2024大模型年度覆盤：GPT-4壟斷被打破，大模型服務價格飛速下降

禮貌AI遇上“癲公”？Claude差點被Llama 3整自閉了！

傳奇兄妹挑戰奧特曼：全球最強AI大模型一夜易主

太機靈！Anthropics的Claude3能察覺研究人員在測試中的行爲

Meta暫停在歐盟推出多模態AI模型引發科技監管討論

AI日報：Claude 3 Haiku支持微調；Heygen推對口型工具；百度稱蘿蔔快跑安全水平接近C919飛機

相關推薦

2024大模型年度覆盤：GPT-4壟斷被打破，大模型服務價格飛速下降

禮貌AI遇上“癲公”？Claude差點被Llama 3整自閉了！

傳奇兄妹挑戰奧特曼：全球最強AI大模型一夜易主

太機靈！Anthropics的Claude3能察覺研究人員在測試中的行爲

Meta暫停在歐盟推出多模態AI模型 引發科技監管討論

Meta暫停在歐盟推出多模態AI模型引發科技監管討論