ペンシルベニア州立大学が最新に発表した研究論文『Mind Your Tone』は、予期せぬ現象を明らかにしています。それは、大規模言語モデルと対話する際に、直接的で無礼な口調を使うほうが、丁寧な表現よりも正確な答えを得やすいというものです。この研究は、質問の口調がAIモデルのパフォーマンスに与える実際的な影響を初めて体系的に検証しました。
研究チームは、数学、科学、歴史など複数の分野をカバーする中程度の難易度の選択問題50問からなるテストセットを作成しました。各問題に対して、5つの異なる口調の質問方法を設計しました。それらは、「あなたが好意を持ってこの問題を解いてくれますか」といった丁寧な表現から、「この問題を答えてください」という中立的な表明、そして「答えを直接言って」という簡潔な指示、さらには「あなたが馬鹿なら答えなさい」とか「役に立たないあなた、この問題が解けますか」など攻撃的な表現まで含まれています。
テスト対象はOpenAIの最新バージョンであるGPT-4oモデルでした。実験の独立性を確保するために、研究者たちはモデルに以前の会話を忘れるように求め、回答として選択肢のアルファベットのみを出力させました。統計結果によると、無礼な口調で質問した場合、GPT-4oの正答率は84.8%であり、過剰に丁寧な質問方法では正答率が80.8%に低下し、4ポイントの差がありました。

研究チームは、この現象について説明しています。過剰な丁寧さは多くの社交辞令や修飾的な言葉を含んでおり、これらは本質的な問題とは関係のない情報であり、モデルが重要な内容を抽出することを妨げている可能性があるのです。一方で、直接的な命令形の表現は礼儀が欠如しているかもしれませんが、モデルが問題そのものに集中できるようにし、情報処理プロセスにおけるノイズを減らすことができます。
注目すべき点は、この法則がすべてのAIモデルに当てはまるわけではないということです。研究者は、GPT-3.5やLlama2-70Bなどの古いモデルで比較テストを行った結果、これらのモデルでは丁寧な質問への反応がより良いことが示されました。無礼な口調は逆に回答の品質を低下させました。研究者たちは、新しい世代のモデルが訓練段階でより多様な口調データに触れ、それにより不要な情報のフィルタリング能力が強化されているため、非礼儀な文脈でもパフォーマンスを維持したり向上させることができるのではないかと考えています。
この実験結果は興味深い技術的洞察を提供していますが、実際の応用においては、ユーザーが日常的にAIツールを使用する際には、具体的なモデルの特性やシーンのニーズに応じて対話方法を調整することが依然として必要です。この研究のより重要な意義は、提示文の設計が礼儀かどうかだけでなく、情報の密度や指示の明確さに関係していることを開発者やユーザーに気づかせる点にあると言えます。
