フランスのAIリーダーであるMistral AIは、転写速度、プライバシー保護、コスト効率の業界基準を再定義するため、2つの新しい音声認識モデルを正式にリリースしました。

新たにリリースされたモデルには、Voxtral Mini Transcribe V2Voxtral Realtimeが含まれており、これらはすべてVoxtral Transcribe2システムの一部です。これらのモデルは最高品質の転写、スピーカー識別(ダイアライゼーション)および極めて低い遅延を提供し、仮想アシスタント、コールセンター自動化、コンプライアンス記録などのさまざまなビジネスシナリオに適しています。

image.png

製品の主な特徴:

  • Voxtral Realtime(リアルタイム処理): 生音声専用に設計され、革新的なストリーミングアーキテクチャを使用しています。遅延は最低で200ミリ秒1分あたり0.006ドルです。

  • Voxtral Mini Transcribe2(バッチ処理): 事前に録音されたファイル専用に設計されています。最大3時間の単一リクエストをサポートし、正確なスピーカーのラベリングとタイムスタンプを提供します。FLEURSワードエラー率ベンチマークテストで優れた性能を発揮し、API料金はわずか1分あたり0.003ドルで、Mistral AIはこれが現在市場で最もコスト効率の良い転写ソリューションだと述べています。

これらのモデルは、中国語、英語、フランス語、日本語を含む13の言語をネイティブにサポートしています。ユーザーは現在、Mistral AIのAudio PlaygroundまたはLe Chatアシスタントで体験できます。

重要なポイント:

  • 🚀 優れた性能: リアルタイムモデルの遅延は200ミリ秒に達し、オフラインモデルはワードエラー率(WER)において大きな優位性を持っています。

  • 🔒 ローカル配置: 4Bパラメータの軽量設計により、クラウドへのアップロードなしにローカルデバイス上で動作でき、プライバシーのセキュリティを確保します。

  • 💰 高いコスト効率: バッチ転写APIは1分あたり0.003ドルで、企業市場での価格優位性を目指しています。

  • 🌍 多言語対応: 世界中の13の主要言語をネイティブにサポートしており、ほとんどの商業アプリケーションシナリオをカバーしています。