最近、テクノロジーメディアの macstories は実験を通じて、アップル社が発表した新しい Speech API の優れたパフォーマンスを明らかにしました。長さ34分、7GB の4K ビデオを transcription(音声文字起こし)する際、この技術はわずか45秒で完了し、その速さに驚きを隠せません。

この技術は2025年の WWDC(ワールドワイドデベロッパーコンファレンス)で発表され、SpeechAnalyzer と SpeechTranscriber の2つの重要なモジュールを含んでいます。macstories のチームはこれらのモジュールに基づいて開発された Yap アプリを使用し、その transcription 性能を詳細にテストしました。結果として、Yap は他の市場にある主要な transcription 工具と比べて、著しい速度の優位性を示しました。

image.png

競合他社との比較では、Yap は45秒で transcription を完了しましたが、OpenAI の Whisper(MacWhisper V3 Turbo バージョン)は101秒かかり、55% も遅くなりました。また、他の工具である VidCap と MacWhisper V2 はそれぞれ1分55秒および3分55秒かかりました。これらすべての結果は、Yap の優位性をさらに強調しています。

専門用語の認識に関しては、すべての工具に誤差が存在します。例えば「AppStories」を transcription する際に正確に認識されませんでしたが、Yap のローカル演算能力により、その処理速度の面では比類ない利点があります。つまり、ユーザーが毎週複数のビデオを処理する場合、Yap を使用することで大幅な時間の節約が可能となり、効率が向上します。

image.png

アップル社が transcription 技術の分野で行ったこの革新は、効率を高めただけではなく、クリエイター、教育者、コンテンツ制作者にとっても利便性をもたらしました。この技術が普及すれば、今後は企業がビデオ処理やコンテンツ生成でより多くの応用を見出す可能性があります。総じて、アップル社のこの新技術は音声 transcription 領域での一大革命を象徴しており、未来のコンテンツ制作はそのおかげでより効率的かつ知的なものとなるでしょう。