吉利汽車は最近、音声合成分野で大きなブレイクスルーを達成しました。独自開発のHAM-TTS大規模モデルは、業界のベンチマークであるVALL-Eを凌駕する性能を示し、業界の注目を集めています。「星睿」と名付けられたこのAI大規模モデルは、発音の正確性、自然さ、話者類似度などの主要指標において顕著な向上を実現しました。
HAM-TTSモデルは、トークンベースのゼロショットテキスト音声変換階層音響モデリング技術を採用しており、スマートコックピットにおけるユーザーインタラクション体験を大幅に向上させています。4億パラメータの条件下では、HAM-TTSモデルの文字誤り率はVALL-Eと比べて1.5%低下し、8億パラメータの完全体では2.3%も低下しました。スタイルの一貫性、トーンの一貫性、総合スコアにおいても、HAM-TTSモデルは10%の顕著な向上を達成しています。
星睿モデルの優位性は性能指標だけでなく、実用性にも表れています。仮想キャラクターとの連携、音声ナビゲーション、ニュース速報など、さまざまな場面で話者の声の安定性を維持し、状況に応じてトーン、イントネーション、ポーズ、感情をスマートに調整します。さらに特筆すべきは、方言や外国語を含む異なる言語間でシームレスに切り替えが可能で、わずか3秒の音声サンプルで音声を再現できる点です。これは、業界で一般的に必要とされる10秒以上をはるかに上回ります。
吉利のチームは、階層音響モデリングを導入することで、革新的にモデルの性能を向上させました。発音の不正確さを解決し、潜在空間変数系列予測器とテキストアライナーを導入することで、テキストと音声の一致性をより正確にし、合成音声の自然さと滑らかさを向上させました。
このブレイクスルーは、吉利の高度な技術における研究開発能力を示すだけでなく、AI分野における野心も反映しています。吉利の星睿AI大規模モデル体系は、マルチモーダル大規模モデル、言語大規模モデルなど、複数の分野に拡大しており、スマートカー技術の基礎を築いています。同時に、吉利のクラウド上の総計算能力は、昨年の81京回/秒から102京回/秒に向上しており、技術への継続的な投資を示しています。
電動化の初期成功に続き、吉利によるスマート化分野でのこのブレイクスルーは、自動車業界の将来の発展に新たな方向性と可能性を提供します。これは、従来の自動車メーカーに対する私たちの認識を再定義するだけでなく、スマート化が将来の自動車業界における競争の鍵となる分野になることを示唆しています。