AI業界の急速な発展に伴い、高品質なデータは強力なAIアルゴリズムにとって極めて重要となっていますが、2026年までにデータ不足が深刻化するとの予測があります。このデータ不足問題への対策としては、既存のデータをより効果的に活用できるようアルゴリズムを改良すること、そして合成データを用いてシステムを訓練することが挙げられます。さらに、AI企業はクリエイターとAI企業間の力関係の不均衡を是正するため、データの取得に費用を支払う必要性も出て来るかもしれません。
関連推奨
ピュリツァー賞受賞者が中心となり、6社のAI大手を告訴!集団訴訟は訓練データの著作権侵害を指摘、賠償請求額は数十億ドル規模に
著名作家らがOpenAIなど6社を提訴。無断で海賊版書籍をAI学習に使用したと主張し、著作権侵害を指摘。成立すれば1作品最大15万ドルの賠償請求が可能で、総額は数十億~数百億ドルに上る可能性。....
上海人工知能研究所が小規模言語多モーダルデータセット「万巻・シルクロード2.0」をオープンソース化
上海人工知能研究所が公開した多言語多モーダルコーパス「万巻・シルクロード2.0」が正式にオープンソース化されました。このコーパスは、既存のアラビア語、ロシア語、韓国語、ベトナム語、タイ語の5言語に加え、セルビア語、ハンガリー語、チェコ語の3つの希少言語データを追加し、テキスト、画像、音声、ビデオの4つのモーダルを網羅しています。データ総量は1150万件を超え、音声・ビデオの長さは2万6000時間を超え、小規模言語多モーダル分野における重要なリソースとなっています。
1000人のアーティストがAIへの著作権販売に抗議し「サイレント」アルバムを発表
1000人以上のアーティストが、英国政府によるAIへの著作権販売に抗議するため、新しいアルバムをリリースしました。このアルバムは、この問題に対する彼らの懸念を示すために、あえて無音のトラックで構成されています。
グーグルとOpenAI、AIトレーニングデータ取得のための著作権法改正を訴える
GoogleとOpenAIは、ロボットを用いてインターネットからデータを収集していますが、最近の著作権法がデータ収集活動に障害をもたらしています。AIモデルの向上には人間が生成したコンテンツが必要ですが、企業はそれに対して対価を支払うべきか、それともインターネットから自由に取得すべきかという問題があります。OpenAIは既にChatGPTが作成したデータセットをGPT-4のトレーニングに使用し始めていますが、これだけに頼るとモデルの崩壊につながる可能性があります。
世界初のAIインフルエンスエージェント LoomiがIDEの考え方に基づいてコンテンツ作成を再構築
Loomiは世界初のAIコンテンツ作成IDEをリリースし、クリエイターが直面する効率低下やコンテンツの適合性の難しさといった課題に対処することを目的としています。AI技術を活用して制作プロセスを最適化し、コンテンツ生産効率を向上させます。
