正文

百度飛槳PaddleOCR發佈v2.8.0新版本引入表格識別算法等方案

發布於AI新閒資訊

時間 :Jul 12, 2024

閱讀 :1分鐘

PaddleOCR v2.8.0作爲飛槳深度學習開源框架下的文字識別開發套件，發佈了里程碑式的更新。這個版本引入了前沿的OCR技術，包括PaddleOCR算法模型挑戰賽的冠軍方案，如場景文本識別算法SVTRv2和表格識別算法SLANet-LCNetV2，爲OCR領域樹立了新的標準。

同時，項目結構經過深度優化，非核心模塊被遷移至新倉庫，使項目更專注於OCR核心技術。此外，解決了包括更新Backbone後模型無法運行、numpy版本依賴衝突、Mac系統運行卡頓等歷史疑難問題，提升了用戶體驗。

微信截圖_20240712084427.png

新版本還包括了對版面分析中OCR結果丟失問題的修復，引入了pyproject.toml以符合PEP518規範，以及對大圖推理的滑動窗口操作等優化改進，增強了軟件的穩定性、兼容性和性能。開源社區的支持和貢獻對PaddleOCR v2.8.0的每一個進步至關重要，PMC成員和貢獻者的努力被特別感謝。

PaddleOCR正在建設文檔教程專屬站點，將提供關鍵詞檢索功能和優雅舒適的界面。

項目地址：https://github.com/PaddlePaddle/PaddleOCR

三家歐洲汽車製造商將集成ChatGPT功能提升駕駛體驗

Stellantis集團的法國標緻、德國歐寶與英國沃克斯豪爾三大歐洲汽車品牌將引入ChatGPT人工智能技術，通過SoundHound的ChatAI系統，提供導航、通訊、體育與天氣等多種功能，無需駕駛者手動操作，提升了駕駛便利與安全性。技術在七月底將覆蓋17個國家和12種主要語言市場，預期顯著改善用戶體驗。此次合作標誌着Stellantis在汽車科技領域的引領地位，並預示着語音助手技術將來可能成爲行業主流趨勢，各大品牌如大衆與奧迪等均在探索技術集成。

Jul 12, 2024

181.6k

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

視覺語言模型（VLMs）如GPT-4o、Gemini-1.5Pro等，已展示了在圖像與文本處理上的優異表現，甚至在視覺理解測試中成績亮眼。然而，新近研究揭示出，這些AI在本質上並未達到完全模擬人類視覺理解的能力。一份名爲“BlindTest”的測試結果顯示，這些高級模型在識別基本圖形關係（如判定圖示中線條交集、圖形重疊）等方面，準確率平均僅達56.20%，最高僅73.77%，遠低於人類的出色表現。這一發現呈現了一個關鍵現象——VLMs的“視”如同近視者，難以精準捕捉並理解圖像中細節和精確的空間關係，如判斷兩個圓是否相交或數數圖像中的具體圓圈數量時，普遍存在偏差。特別是，當圖像中圓圈數量脫離“5”這個數值時，模型偶有“偏好”，顯示其在數量識別上的侷限性。這些發現挑戰了公衆對VLMs能力的認知，揭示了AI在圖像語義理解方面的侷限性，並提醒我們人工智能在視覺理解能力方面仍存在顯著的待解決問題。

Jul 12, 2024

182.7k

沃爾瑪繼續採用生成AI技術，仍保持人類在決策中的角色

沃爾瑪在VB Transform2024活動上展示了在生成AI領域的最新進展，側重於運用AI技術提高客戶體驗、增強運營效率。公司強調自動化的決策過程中，人類監督的價值，以確保信息準確性及品牌聲譽，同時實施策略監控和錯誤修正機制，以最低化風險。其AI戰略以構建靈活的技術基礎爲目標，能快速迭代並實驗證據。沃爾瑪通過AI技術的應用實踐，展示瞭如何結合技術創新與自動化提升業務效率期間，保持人類在決策過程中的關鍵角色，這一策略不僅加速了公司發展，也爲行業提供了AI應用的寶貴參考和實踐經驗。引領着全球零售業在AI技術層面的發展路徑。

Jul 12, 2024

202.4k

軟銀收購英國AI芯片製造商Graphcore

SoftBank宣佈全資收購英國AI芯片公司Graphcore，具體交易金額未公開，旨在通過獲得更多資金支持，推動Graphcore在人工智能硬件領域的業務發展。Graphcore的智能處理單元（IPU）設計適用於大量並行處理和執行復雜機器學習模型，對其在計算領域潛力的限制得到補足。收購後，Graphcore總部將保留在英國布裏斯托爾，繼續在倫敦、劍橋、波蘭格但斯克及臺灣新竹皆設有辦事處。聯合創始人兼首席執行官Nigel Toon及CTO Simon Knowles預計將繼續任職。Vikas J. Parekh指出，本次收購體現了其在通用人工智能研究和先進半導體技術領域的合作意願，爲未來技術合作設定了基礎。

Jul 12, 2024

204.2k

Motion-I2V：新的圖像生成視頻框架使用運動畫筆生成動作視頻

AI領域新突破：團隊開發Motion-I2V框架，專爲實現更加一致和可控的圖像到視頻生成。通過將過程分爲預測運動場與內容傳播兩個階段，並引入基於擴散的運動場預測機制，該框架顯著提升視頻生成質量及用戶控制體驗。Motion-I2V支持用戶通過標註精確控制運動和設置，增強體驗。其兩大優勢體現在：改善運動一致性且能夠超越複雜運動速度處理，同時擴展歷史技術使用範圍，無需訓練樣本即可實現風格或內容的零樣本轉換。此創新爲影視、遊戲等多個行業開拓新解決方案，預期將革新人們追求的豐富、互動視覺體驗。請參閱：https://xiaoyushi97.github.io/Motion-I2V/ 進一步瞭解。

Jul 12, 2024

272.5k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

百度飛槳PaddleOCR發佈v2.8.0新版本 引入表格識別算法等方案

相關推薦

三家歐洲汽車製造商將集成ChatGPT功能 提升駕駛體驗

GPT-4o和Sonnet-3.5在視力測試中敗北，VLM們竟是“盲人”？

​沃爾瑪繼續採用生成AI技術，仍保持人類在決策中的角色

軟銀收購英國AI芯片製造商Graphcore

Motion-I2V：新的圖像生成視頻框架 使用運動畫筆生成動作視頻

百度飛槳PaddleOCR發佈v2.8.0新版本引入表格識別算法等方案

三家歐洲汽車製造商將集成ChatGPT功能提升駕駛體驗

沃爾瑪繼續採用生成AI技術，仍保持人類在決策中的角色

Motion-I2V：新的圖像生成視頻框架使用運動畫筆生成動作視頻