Salesforce AI Research發佈多項創新,旨在解決企業AI系統在強大智能與穩定執行力之間的差距,即“鋸齒狀智能”。核心目標是構建更智能、可信、適用於企業應用的AI代理,並向“企業通用智能”(EGI)邁進。
研究重點在於量化和解決AI性能不一致性,推出了SIMPLE數據集作爲公開基準。更重要的是,Salesforce推出了CRMArena,一個模擬真實CRM場景的基準測試框架,用於全面評估AI代理在服務、分析和管理等角色中的表現。早期測試顯示,現有領先AI座席在函數調用成功率方面仍有提升空間。
在模型層面,Salesforce發佈了SFR-Embedding,一種在文本嵌入基準測試中領先的新模型,旨在更深入地理解上下文。同時推出了針對代碼搜索優化的SFR-Embedding-Code。此外,還推出了xLAM V2(大型動作模型),專注於預測和執行任務序列,尤其適用於需要與企業系統交互的自主代理。
爲解決企業對AI安全性的擔憂,Salesforce推出了SFR-Guard模型,增強了其信任層,爲AI代理的行爲提供保障。同時推出了ContextualJudgeBench,用於評估基於LLM的判斷模型。在多模態領域,推出了TACO模型,通過思維行動鏈解決複雜的多步驟問題,並在相關基準測試中取得顯著性能提升。
Salesforce強調與客戶的共同創新,客戶反饋是塑造企業AI路線圖的關鍵。通過應用Atlas推理引擎等先進技術,AI性能已得到顯著提升。
Salesforce的研究正值企業加速採用AI的關鍵時刻,其關注點在於將先進功能與可靠性能相結合。與追求更大模型的行業趨勢不同,Salesforce更側重於解決現實世界的業務需求。相關技術將在未來幾個月內逐步推出,首先應用於數據雲,併爲Agentforce的未來版本提供支持。Salesforce認爲,在企業AI競爭中,一致性和可靠性將最終勝出。