最近,開放源代碼倡議組織(OSI)發佈了一項新定義,明確什麼纔算是真正的 “開源” 人工智能。這一新標準引起了科技巨頭們的關注,尤其是 Meta 的 Llama 模型,因爲它並不符合這些規則。OSI 一直是開放源代碼軟件的行業標準制定者,但在 AI 系統中,有一些傳統許可證未能覆蓋的元素,比如模型訓練數據。

根據 OSI 的新定義,任何被認爲是真正開放源代碼的 AI 系統必須提供三樣東西:首先是有關訓練 AI 所用數據的詳細信息,以便他人能夠理解並重現這些結果;其次是用於構建和運行 AI 的完整代碼;最後,還需要提供訓練中的設置和權重,這些對 AI 的結果產生影響。

大模型 代碼 互聯網

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

這一規定直接挑戰了 Meta 的 Llama 模型。儘管 Llama 可以公開下載和使用,但它在商業用途上有一定的限制,並且沒有提供訓練數據,因此未能滿足 OSI 對於開放的標準。Meta 的發言人 Faith Eischen 表示,他們與 OSI 在許多方面是有共識的,但對於這個定義存在不同意見。她指出,定義 “開放源代碼 AI” 並不容易,因爲傳統的定義未能涵蓋當今快速發展的 AI 模型的複雜性。

OSI 的執行董事 Stefano Maffulli 表示,他們花了兩年的時間,與全球的專家共同制定這一標準。他們與學術界、機器學習和自然語言處理領域的專家進行了深入交流,也與內容創作者合作,力求做到全面。

Meta 限制訓練數據訪問的理由主要是出於安全考慮,但批評者則認爲其背後可能是爲了降低法律責任和保護競爭優勢。許多 AI 模型的訓練數據中幾乎肯定包含了版權材料。現在,針對 Meta、OpenAI 等公司的訴訟層出不窮,原告們只能依靠間接證據來證明他們的作品被抓取。

同時,Maffulli 認爲當前的情況與過去相似。他回憶起1990年代微軟對待開源的態度,認爲 Meta 正在以相似的理由將其技術封鎖。對他們而言,訓練數據就是 “祕密武器”。

劃重點:

🌐 OSI 發佈的新定義要求 AI 系統提供訓練數據、代碼和設置,推動 “開放 AI” 標準化。

🦙 Meta 的 Llama 模型因未能提供訓練數據而被認爲不符合開放源代碼標準,面臨行業質疑。

⚖️ 法律糾紛加劇,Meta 及其他 AI 公司因使用版權材料而受到多方訴訟,法律責任引發關注。