新しい研究では、AIモデルがわずか2冊の本でファインチューニングを行うだけで、有名な作家の文体を生成できることを示しており、読者がこれらの作品を専門的な模倣者よりも好む傾向があることが判明した。この研究は、サンタ・クララ大学とコロンビア法学院の研究チームによって行われ、ノーベル文学賞受賞者のハム・ガンやブッカー賞受賞者のサルマン・ラシュディを含む50人の著名な作家のスタイルを作成した。

商標、著作権

研究では、28人のライティング専門家と131人の非専門家の合計159人が、クラウドソーシングプラットフォーム「Prolific」を通じて異なるテキストセグメントを評価した。評価中には、参加者はテキストが人間によって書かれたものかAIによって生成されたものかを知らされていなかった。研究では、主に2つのAIトレーニング方法が用いられた:コンテキストプロンプトと特定の著者向けファインチューニング。コンテキストプロンプトでは、GPT-4o、Claude3.5Sonnet、Gemini1.5Proの3つの主要なAIシステムを使用し、同じ指示とサンプルテキストを与えながら生成を行った。一方で、特定の著者向けファインチューニングでは、GPT-4oのみが必要なAPI機能をサポートしていたため、研究チームは30人の著者のデジタル版の本を購入し、各著者ごとに独立したモデルを訓練した。

参加者は2つのテキストを比較し、より優れていると感じる方を選ばなければならない。スタイル評価では、参加者は元の著者の一節も見ることになる。研究結果によると、基本的なコンテキストプロンプトを使用した場合、専門家は人間によるテキストを好む傾向が顕著だったが、非専門家の選択はやや分散していた。しかし、ファインチューニング後には、専門家がスタイルに関してAI生成テキストを好む割合が8倍に増加し、書き物の質においてもAIテキストを選ぶ割合は2倍になった。現代のAI検出ツールでは、標準的なAI出力の識別率は97%に達するが、ファインチューニングされた出力の識別率はわずか3%である。

また、研究ではトレーニングデータの量が結果に影響しないことも発見された。一部の作家はわずか2冊しか出版していないにもかかわらず、その文体を良好に模倣できた。専門家と非専門家の評価基準の一致は、ファインチューニングされたAIテキストの質が広く認知されていることを示している。専門的なライティング費用は2万5千ドルに達するが、AIをトレーニングするコストは約81ドルであり、経済的な効果は非常に大きい。

これらの研究結果は、アメリカの裁判所がAIが著作権素材をどのように取得し使用するのかについて審理している時期に重なる。研究チームは、特定の作家を模倣するAIに対しては法律上明確な区別が必要であり、個人作家のスタイルをAIが複製することを禁止するか、またはAI生成テキストを明確に表示する必要があるかもしれないとしている。

要点:  

📚 AIモデルは2冊の本で有名な作家の文体を生成できる。  

🧑‍🎓 ファインチューニング後に、読者がAI生成テキストを好む傾向が顕著に増加した。  

⚖️ 研究結果はアメリカの著作権法や公平使用に関する議論に影響を与える可能性がある。