7月22日、騰訊混元は自社開発したASR(音声認識)の大規模モデルがimaプラットフォームに正式に導入され、スマートフォンアプリで初めて音声入力機能を実現したことを発表しました。これにより、ユーザーは「口から文章を書く」ような利便性を享受できるようになりました。現在、ユーザーはキーボードを手動で入力することなく、直接音声で質問やアイデアを入力できるため、入力効率が大幅に向上しています。

騰訊混元のASR大規模モデルは、鋭い聴覚と知的な理解能力により際立っています。複雑な環境でも正確に音声を認識でき、1分間に300文字を認識し、手動入力よりも4倍速く、結果もより正確で自然です。このモデルは業界初の双エンコーダーを基盤としたストリーミングASRアーキテクチャを採用しており、従来のASR技術と比較して、意味理解能力が大きく向上しています。特に中国語と英語が混在するようなシナリオにおいて優れた性能を発揮します。

微信截图_20250723081854.png

今回のimaプラットフォームに導入された音声入力機能は、知識ベースの質問応答やノート作成など、さまざまなユースケースに対応しています。知識ベースの検索やトップページの質問応答において、質問が長くなる場合でも、音声で直接入力できます。ノート作成時には、imaは音声を聞くことができるノートのアシスタントのように働き、ユーザーの創作を支援し、古いノートに基づいてすばやく続きを作成することで、スムーズなつながりを実現します。さらに、iOSユーザーはデスクトップウィジェットを追加することで、より迅速な質問体験が可能です。

騰訊混元チームは、今後もASR大規模モデルを最適化し、地方話や多言語の認識能力を向上させ、サポートする言語の種類を継続的に拡充していく予定です。これにより、さまざまなシナリオでの使用ニーズに応えることができます。今回の音声入力機能のリリースは、騰訊混元が音声認識分野における技術力を示すものであり、ユーザーにとってより効率的で使いやすい入力方法を提供し、スマートインタラクションの新しい章を開きました。