在當今數字化的世界裏,短文本的使用已成爲在線交流的核心。然而,由於這些文本往往缺乏共同的詞彙或背景,使得人工智能(AI)在分析時面臨諸多挑戰。對此,悉尼大學的一名英語文學研究生兼數據科學家賈斯汀・米勒(Justin Miller)提出了一種新方法,利用大型語言模型(LLMs)對短文本進行深入理解和分析。
米勒的研究重點在於如何將大量短文本,如社交媒體個人資料、顧客反饋或與災難事件相關的在線評論,進行有效的分類。他開發的 AI 工具可以將數以萬計的 Twitter 用戶個人簡介聚類成易於理解的十個類別,這一過程在2020年9月的兩天內成功分析了關於美國總統特朗普的近40,000條 Twitter 用戶簡介。這種分類不僅可以幫助識別用戶的職業傾向、政治立場,甚至是他們使用的表情符號。

“這項研究的亮點在於其人本設計的理念。” 米勒表示,使用大型語言模型生成的分類不僅計算效率高,而且能夠與人類的直觀理解相契合。他的研究還表明,像 ChatGPT 這樣的生成式 AI 在某些情況下提供的分類名稱比人類審查員更爲清晰、一致,尤其是在從背景噪聲中辨別有意義的模式時。
米勒的工具具有多種應用潛力。他的研究表明,龐大的數據集可以被簡化爲易於管理的有意義的組。例如,在關於俄烏戰爭的項目中,他將超過100萬條社交媒體帖子進行了聚類,識別出包括俄羅斯虛假信息運動、動物在人道救援中作爲象徵的使用等十個不同話題。此外,通過這些聚類,組織、政府和企業可以獲得切實可行的見解,幫助做出更明智的決策。
米勒總結道:“這一 AI 雙重用途的應用,不僅能減少對昂貴和主觀的人類審查的依賴,還爲我們提供了一種可擴展的方式來理解大量文本數據。從社交媒體趨勢分析到危機監控和客戶洞察,這種方法有效結合了機器的效率和人類的理解力,爲數據的組織和解釋提供了新思路。”
