備受矚目的法律人工智能工具 Harvey 近日宣佈戰略調整,未來將整合 Anthropic 和谷歌的領先基礎模型,結束了此前完全依賴 OpenAI 技術的局面。值得注意的是,Harvey 曾是 OpenAI 初創基金的明星投資項目之一,該基金旨在扶持基於 AI 技術(特別是 OpenAI 自研技術)的公司。儘管 Harvey 強調不會放棄 OpenAI,只是增加了更多模型和雲服務選項,但此舉無疑對 OpenAI 的競爭對手來說是一次重要的勝利。

2022年12月,OpenAI 創業基金將 Harvey 列爲其首批支持的四家初創公司之一,當時該基金由 OpenAI 首席執行官 Sam Altman 管理。此後,Harvey 發展迅猛,估值已達30億美元。今年2月,該公司宣佈完成由紅杉資本領投的3億美元 D 輪融資,包括 Coatue、Kleiner Perkins 和 OpenAI 基金在內的多家知名機構跟投。

AI機器人玩遊戲

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

引人關注的是,谷歌的風險投資部門 GV 在2024年7月領投了 Harvey 的1億美元 C 輪融資,OpenAI 基金也參與其中。然而,儘管谷歌的企業風投部門已成爲 Harvey 的股東,但 Harvey 並未立即採用谷歌的 AI 模型。

促使 Harvey 改變策略的關鍵在於其內部開發的基準測試 BigLaw。該基準測試顯示,各種基礎模型在法律任務上的熟練程度不斷提高,並且某些模型在特定任務上的表現優於其他模型。Harvey 認爲,與其投入大量資源訓練模型,不如直接採用來自其他供應商(如通過亞馬遜雲提供的谷歌和 Anthropic 模型)的高性能推理基礎模型,並針對法律市場進行微調。該公司表示,使用多樣化的模型也將有助於 Harvey 構建更強大的 AI 代理。

Harvey 在博客中指出:“在不到一年的時間裏,已有七個模型(包括三個非 OpenAI 模型)在 BigLaw Bench 上的表現超越了最初基準的 Harvey 系統。”

Harvey 的基準測試結果揭示了不同模型在特定法律任務上的優勢。例如,谷歌的 Gemini2.5Pro 在法律文件起草方面表現出色,但在撰寫口頭辯論等審前任務方面則顯不足,因爲它對“傳聞等複雜的證據規則”的理解有限。根據 Harvey 的測試,OpenAI 的 o3在此類預審任務中表現良好,而 Anthropic 的 Claude3.7Sonnet 也緊隨其後。

Harvey 宣佈,未來還將加入日益壯大的模型基準性能公開排行榜,對主流推理模型在法律任務中的表現進行排名。更重要的是,該公司不僅會發布單一的排名分數,還將分享“頂級律師對模型性能提供的細緻入微的見解,這些見解是單一分數基準無法捕捉的”。

因此,由 OpenAI 支持的 Harvey 不僅開始採用競爭對手的模型,還對其支持者(包括谷歌)提出了更高的性能要求。儘管 AI 基準測試日益複雜且帶有一定的競爭性,但 OpenAI 在該領域仍然保持着強大的競爭力。

Harvey 首席執行官溫斯頓·溫伯格在一份聲明中表示:“我們非常榮幸 OpenAI 成爲 Harvey 的投資者和我們產品的關鍵合作伙伴。我們將繼續滿足全球客戶的需求,並致力於爲客戶提供更多選擇。”