今日のデジタル社会において、短いテキストはオンラインコミュニケーションの中核となっています。しかし、これらのテキストは共通の語彙や背景に乏しいため、人工知能(AI)による分析は多くの課題に直面します。これに対し、シドニー大学の英文学専攻大学院生でありデータサイエンティストでもあるジャスティン・ミラー(Justin Miller)氏は、大規模言語モデル(LLMs)を活用した、短テキストの深い理解と分析を行う新たな手法を提案しました。

ミラー氏の研究は、ソーシャルメディアの個人プロフィール、顧客フィードバック、災害関連のオンラインコメントなど、大量の短テキストを効果的に分類する方法に焦点を当てています。彼が開発したAIツールは、数万ものTwitterユーザーのプロフィールを、理解しやすい10個のカテゴリに分類できます。このプロセスは、2020年9月、わずか2日間で、ドナルド・トランプ米大統領に関する約4万件のTwitterユーザープロフィールを分析することに成功しました。この分類は、ユーザーの職業傾向、政治的立場、さらには使用している絵文字の識別にも役立ちます。

ツイッター (3)

「この研究のハイライトは、人間中心設計の理念にあります。」とミラー氏は述べています。大規模言語モデルによって生成された分類は、計算効率が高いだけでなく、人間の直感的な理解とも一致しています。彼の研究はまた、ChatGPTのような生成系AIが、特に背景ノイズの中から意味のあるパターンを識別する場合、人間の審査員よりも明確で一貫性のある分類名を提供することがあることを示しています。

ミラー氏のツールは、幅広い応用可能性を持っています。彼の研究は、膨大なデータセットを、管理しやすい意味のあるグループに簡素化できることを示しています。例えば、ロシア・ウクライナ戦争に関するプロジェクトでは、100万件を超えるソーシャルメディアの投稿を分類し、ロシアの虚偽情報キャンペーン、人道支援における動物の象徴的な使用など、10個の異なるトピックを特定しました。さらに、これらの分類を通じて、組織、政府、企業は現実的な洞察を得て、より賢明な意思決定を行うことができます。

ミラー氏は結論として、「このAIの二重用途のアプリケーションは、高価で主観的な人間の審査への依存を減らすだけでなく、大量のテキストデータを理解するための拡張可能な方法を提供します。ソーシャルメディアのトレンド分析から危機監視、顧客インサイトまで、この手法は機械の効率性と人間の理解力を効果的に組み合わせ、データの整理と解釈に新たな視点を与えます。」と述べています。