TEN Agentチームは近日、コアモデルである**TEN Voice Activity Detection(VAD)**と**TEN Turn Detection**が正式にオープンソース化されたことを発表しました。これにより、リアルタイムでマルチモーダルな音声AIエージェントの構築に強力な技術的サポートが提供されます。

この取り組みは、TENフレームワークが音声インタラクション技術の民主化とオープンソース協力を推進する上で重要な進展を示しています。以下では、AIbaseがまとめた最新情報をもとに、この2つのコアモデルの機能、利点、そして業界への潜在的な影響について詳しく解説します。

image.png

TEN VAD: 低遅延・高性能な音声活動検出

TEN VADは、企業向けアプリケーションに特化したリアルタイム音声活動検出器であり、低遅延性、軽量性、高性能で知られています。公式情報およびSNSからのフィードバックによると、TEN VADはフレーム単位での音声活動を正確に検出でき、一般的に使用されているWebRTC VADやSilero VADよりも優れています。以下にその主な特徴を示します:

- **計算複雑度が低い**: TEN VADのライブラリは小さく、計算コストが低いため、クロスプラットフォーム対応のC言語互換性があり、Linux x64、Windows、macOS、Android、iOSなど多くのオペレーティングシステムをカバーしています。また、Linux x64向けのPythonバインディングとWeb端末用のWASMサポートも提供されています。[](https://huggingface.co/TEN-framework/ten-vad)

- **高精度と低遅延**: Silero VADに比べて、TEN VADは音声から非音声への変換検出において遅延が少なく、短い間の停止を素早く認識できるため、リアルタイムインタラクションに適しています。テスト結果によると、実時間係数(RTF)はさまざまなCPUプラットフォームで優れた性能を示しています。[](https://huggingface.co/TEN-framework/ten-vad)

- **最新のオープンソース進捗**: 2025年6月に、TENチームはONNXモデルと前処理コードをオープンソース化し、ONNXをサポートするあらゆるプラットフォームやハードウェアアーキテクチャでデプロイ可能です。これにより、柔軟性がさらに向上しました。さらに、WASM+JSのサポートにより、Web端末での応用可能性が拡大しています。

SNS上では、開発者たちはTEN VADのオープンソース化を高く評価しており、伝統的なVADモデルを凌駕する性能を備えていると考えており、リアルタイム音声アシスタント開発に強力なツールを提供すると考えられています。

TEN Turn Detection: 智能な会話ホンの管理

**TEN Turn Detection**は、全二重音声通信に特化したスマートなホン検出モデルであり、人機対話の中で最も困難な課題の一つである「ユーザーが発言を終えるタイミングを正確に判断し、文脈に基づいて中断処理を行う」ことを目的としています。以下にその主要な特徴を示します:

- **意味解析能力**: Qwen2.5-7BのTransformerモデルを基盤とし、TEN Turn Detectionは会話の意味的文脈や言語パターンを分析することで、ユーザー発言の「完了」「待機」「未完了」状態を正確に区別します。例えば、「こんにちは、質問があります……」という発言を未完了と識別し、不要なAIの中断を防ぎます。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **多言語サポート**: 英語と中国語のサポートが現在行われており、多言語会話におけるホン信号を正確に認識できるため、グローバルな利用シーンに適しています。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **優れた性能**: 公開されたテストデータセットで、TEN Turn Detectionは他のオープンソースホン検出モデルに比べてすべての指標で優れており、特に動的なリアルタイム会話において突出した性能を発揮します。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **自然なインタラクション体験**: TEN VADと組み合わせることで、TEN Turn DetectionはAIエージェントが人間のように適切な発言タイミングを待つことや、適切な文脈でユーザーの中断を処理することを可能にし、より自然な会話体験を提供します。[](https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)

TEN Agentエコシステム: マルチモーダルリアルタイムAIの基盤

TEN AgentはTENフレームワークの展示プロジェクトであり、TEN VADやTEN Turn Detectionなどのコアコンポーネントを統合し、音声、ビデオ、テキストなど多様なモーダルのリアルタイムインタラクションをサポートしています。以下に、そのエコシステムでの役割を示します:

- **スムーズな統合**: TEN VADとTEN Turn DetectionはTENフレームワークのプラグインとして、開発者は簡単な設定で音声エージェント開発プロセスに統合できます。DeepgramやElevenLabsなどのサービスとの統合もサポートされています。

- **多様なシナリオへの対応**: TEN Agentは、インテリジェントカスタマーサポート、リアルタイム翻訳、仮想パートナーなど、さまざまなユースケースに対応しています。例えば、Google GeminiのマルチモーダルAPIと組み合わせることで、リアルタイムの視覚や画面共有検出が可能になり、教育や医療分野での応用範囲が広がります。

- **オープンソース協力**: TENフレームワークのすべてのコンポーネント(TEN VADの一部のコードを除き)は完全にオープンソース化されており、コミュニティの開発者がコード貢献、バグ修正、新機能の提案を歓迎しています。TENチームはGitHub IssuesとProjectsを通じて協力の手段を提供し、幅広い開発者の参加を促進しています。