最近、上海交通大学LANCE研究所とバイトダンスが共同で、LSLMという新しいインタラクティブ音声モデルを発表しました。このモデルは、聞きながら話すことができ、非常に自然で人間らしい会話に近い効果を実現すると言われています。
「小L」と呼ばれるLSLMは、既存の音声モデルがリアルタイムインタラクション、ノイズ耐性、未知の話者認識において抱えていた限界を克服し、人間らしい自然な会話に近づいています。エンドツーエンド設計を採用し、聴覚と発声の2つのチャネルを含み、デコーダーのみのTTSを用いて音声生成を行い、ストリーミング自己教師あり学習(SSL)エンコーダーを使用してオーディオ入力のリアルタイム処理を行います。
「小L」は、全二重モデル(FDM)による同時音声送受信、会話中の割り込みや交互応答、ノイズに強い環境適応性、未知の話者への高い認識力と対応力など、独自の特長を備えています。騒音の多い環境でも安定した動作を維持し、様々な現実的な状況に対応できます。また、新しい音声や指示を認識・応答し、様々なユーザーに対応できます。
プロジェクト詳細:https://ziyang.tech/LSLM/
論文:https://arxiv.org/abs/2408.02622