上海人工智能實驗室開源小語種多模態數據集萬卷·絲路2.0

由上海人工智能實驗室發佈的“萬卷·絲路2.0”多語言多模態語料庫正式開源。該語料庫在原有的阿拉伯語、俄語、韓語、越南語、泰語等5個語種基礎上，新增了塞爾維亞語、匈牙利語、捷克語3個稀缺語料數據，涵蓋文本、圖片、音頻、視頻四大模態，數據總量超過1150萬條，音視頻時長超過2.6萬小時，成爲小語種多模態領域的重要資源。

微信截圖_20250417083637.png

“萬卷·絲路2.0”具有多語言、大規模、多模態、高質量的特點。它不僅擴充了語種數量，還全面升級了數據模態和總量，新增了圖片 - 文本、音頻 - 文本、視頻 - 文本、特色指令微調（SFT）四大模態數據，覆蓋多模態研究全鏈路。數據經過成熟生產管線及安全加固，結合過濾算法與當地專家人工精細化標註質檢，成爲覆蓋多模態、多領域的高質量數據集，適配文化旅遊、商業貿易、科技教育等不同場景。

此次開源的內容包括:圖片 - 文本累計開源超過200萬條;音頻 - 文本開源超過1600小時;視頻 - 文本開源超過2.5萬小時;SFT 數據開源18萬條。開源數據覆蓋了多種語種，爲開發者提供了豐富的多模態數據資源。

“萬卷·絲路2.0”展現出顯著的模型賦能效應。基於7B 參數基礎模型訓練時，模型綜合性能躍升52.3%;在700億參數的大模型訓練中，仍保持12.8% 的性能增益。該數據集使輕量化模型在多語言處理領域展現出超越大模型的卓越表現，爲多語言模型的微調提供了有力支持。

數據集地址:

https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

一鍵微調框架:

https://github.com/modelscope/ms-swift

國際仲裁機構發佈人工智能應用新指南

近日，國際仲裁領域的重要機構 —— 國際仲裁學會（Ciarb）發佈了一份關於人工智能(AI)在仲裁中應用的指南。這一舉措旨在爲法律專業人士和仲裁員提供關於如何在仲裁過程中道德地使用這一新興技術的實用建議。隨着科技的迅速發展，人工智能正逐漸滲透到各個行業，包括法律和仲裁領域。AI 可以在文檔審查、證據分析及裁決建議等方面發揮重要作用，但其應用也伴隨着一系列倫理和法律挑戰。Ciarb 的這份新指南希望通過明確使用 AI 的原則和最佳實踐，幫助法律從業者合理利用這一技

騰訊增持智元機器人

企查查APP顯示，近日，智元機器人關聯公司上海智元新創技術有限公司發生工商變更，廣西騰訊創業投資有限公司持股比例由約2.06%增加至約2.7%。企查查信息顯示，該公司成立於2023年，法定代表人爲鄧泰華，現由桑蓬（上海）科技合夥企業(有限合夥)等共同持股。

谷歌利用 AI 技術去年封停 3920 萬廣告賬號，效果顯著

谷歌近期宣佈，2022年該公司成功封停了3920萬個廣告主賬號，數量是2023年的三倍。這一成績主要歸功於谷歌在廣告審覈中應用的先進人工智能技術。通過大語言模型的輔助，谷歌能夠在廣告投放前識別出商業冒充、非法支付信息等違規行爲，從而快速暫停大部分廣告賬戶。谷歌廣告安全總經理亞歷克斯・羅德里格茲在一次虛擬媒體會議上指出，這些 AI 模型在改進廣告安全方面發揮了重要作用，儘管如此，整個過程仍有人工審覈的參與。他透露，谷歌成立了一個由100多名專家組成的團隊，成

DroidRun正式開源，LLM驅動Android手機自動化控制新突破

近日，一個名爲DroidRun的開源項目引發了廣泛關注。該項目通過大型語言模型（LLM）實現自然語言指令控制Android手機，爲用戶提供了前所未有的自動化體驗。從社交媒體管理到日常任務自動化，DroidRun展示了AI在移動設備交互領域的巨大潛力。據AIbase瞭解，DroidRun已正式開源，源代碼現已推送至GitHub，爲開發者與技術愛好者提供了自由探索與二次開發的機會。功能亮點:自然語言驅動手機操作DroidRun的核心在於通過自然語言指令實現Android手機的精準控制。用戶只需輸入簡單指令，例如“打開X

Figma與AI初創公司Lovable對決，開發者模式之爭升級