音声AI「一気に完成」！階躍、1300億パラメーターの支配級音声モデルをオープンソース化、リアルタイム会話＋感情複製で衝撃の登場

音声対話分野に画期的なブレークスルーが到来！中国のAI企業Step Audioが最近、衝撃的な1300億パラメーターの超大型音声モデルをオープンソース化し、業界の注目を集めています。この「支配的」と評される強力なモデルは、業界初の音声理解と生成制御を一体化した製品レベルのリアルタイム音声対話システムであり、その機能の包括性と技術の先進性は驚異的で、音声AI技術の発展が新たな高みに「一気に」到達する可能性を示唆しています。

このオープンソースモデルの最も重要な特徴は、その一体型設計と強力な制御能力にあります。ユーザーの音声指示を正確に理解するだけでなく、音声生成プロセスを柔軟に制御し、かつてないほどパーソナライズされた音声対話体験を実現します。

言語サポートにおいて、このモデルは驚異的な多言語能力を示し、中国語、英語、日本語をスムーズに切り替え、クロスリンガルのコミュニケーションシーンにも対応します。さらに驚くべきことに、方言にも深く対応しており、現在広東語、四川語などの主要な方言をカバーし、音声対話をより生活に密着させ、人間味あふれるものにします。

言語に加えて、このモデルは音声感情を細かく制御することもでき、ユーザーは音声の感情的なトーン（例：喜び、悲しみなど）を自由に設定し、AIの表現により感情的な豊かさを持たせることができます。話速とリズムも自由に調整でき、さまざまなシーンでの表現ニーズに対応します。さらに、ラップやハミングなど、より創造的な音声形式にも対応し、コンテンツ制作の可能性を無限に広げます。

さらに驚くべきことに、このモデルは音声クローン機能も備えています。これは、ユーザーがこの技術を利用して、非常にパーソナライズされた音声アシスタントを作成し、音声の「複製」と「継承」を実現できることを意味します。

Step Audioがこれほど強力な音声モデルをオープンソース化したことは、業界全体の技術進歩と応用革新を大きく促進するでしょう。音声AI技術の応用障壁を大幅に下げるだけでなく、将来の音声対話がよりインテリジェントで自然でパーソナライズされ、人々の日常生活に真に溶け込むことを示唆しています。

プロジェクトアドレス：https://github.com/stepfun-ai/Step-Audio/tree/main

ニューヨーク・タイムズ、AIツールの従業員利用を承認も、著作権問題は継続

Semaforの報道によると、ニューヨーク・タイムズは最近、社内メールで、製品および編集チームが、業務効率の向上とイノベーション促進のために、一連の人工知能ツールを使用することを許可したと発表しました。この措置は、老舗メディアが積極的にAI技術を受け入れていることを示していますが、同時に潜在的なリスクにも警戒しています。ニューヨーク・タイムズは新しい社内AI要約ツール「Echo」を導入し、従業員に承認済みの外部AIツールリストを提供しています。これらのツールは、プログラミング用のGitHub Copilotなど、複数の分野を網羅しています。

新壹科技の動画制作プラットフォーム「秒創」がDeepSeekと連携

2月18日、新壹科技は、同社の動画制作プラットフォーム「秒創」がDeepSeekプラットフォームに正式に連携したことを発表しました。これは、AIGC動画生成技術の新たな大きな革新を示しています。今回の連携により、クリエイターや企業は、より効率的な動画コンテンツ制作ツールを利用できるようになり、動画生成、動画分析・認識、AIライティングアシスタント、プロンプト最適化などの技術の広範な応用を促進します。

マイクロソフトの研究：AIの過剰使用は批判的思考力を弱める可能性

マイクロソフトとカーネギーメロン大学による最新の研究によると、人工知能（AI）ツールの過剰な依存は、人々の批判的思考力を損なう可能性があることが示されています。研究チームは、IT、デザイン、行政、金融など複数の業界で生成AIを使用する319人の知識労働者を対象に調査を行い、936件の実例を収集しました。研究では、知識、理解、応用、分析、統合、評価という6つの批判的思考の次元を分析しました。その結果、AIツールの使用後、問題解決における思考方法に3つの大きな変化が見られたことが分かりました。

AIも地域に根付く：Mistral、中東・南アジア市場向けに特化した初の地域特化型モデルSabaを発表

人工知能はかつてない速さで世界中に広がりつつありますが、無視できない問題も浮き彫りになっています。汎用型AIは多様な能力を備えていますが、特定地域の文化や言語に対応するには、力不足であることが多いのです。特に、文化と言語が多様な中東・南アジア地域では、より"地域に精通した"AIモデルが切実に求められています。大規模汎用モデルは多くの言語を習得していますが、地域色の濃い状況を処理する際には、言語文化の背景や深い地域知識が不足しているという弱点があらわになります。そこで…

ニューヨーク・タイムズ、製品と編集スタッフ向けにAIツールを提供開始