音声AIのリーディング企業Speechifyはこのほど、ネイティブなWindowsクライアントを正式にリリースし、単一の「テキストから音声への変換」ツールから、フルスタック型の音声アシスタントへと進化したことを示しました。このアプリケーションは3つのローカルAIモデルを統合し、アプリケーション間でリアルタイムでの入力とドキュメントの変換を実現しており、Superwhisperなどの競合製品と直接対抗しています。

迅速な反応とプライバシーの確保のために、このアプリケーションはCopilot+ PCなどの高性能デバイスで完全なローカル環境での動作をサポートしています。ユーザーは音声をクラウドにアップロードすることなく、ローカルのNPUまたはGPUで駆動されるWhisperモデルを利用して、高精度な音声入力や会議要約を行うことができます。

image.png

ハードウェアとの深くの協調、三位一体モデルによるスムーズな体験

SpeechifyはWindows端末で3つの主要なアルゴリズムを同時に実行しています。読むためのニューラルネットワークテキストから音声への変換モデル、話している状態をリアルタイムで検出する音声活動検出(VAD)モデル、そして正確な変換を担当するWhisperモデルです。この「三位一体」の構造により、ユーザーはさまざまな語速においても自然で滑らかなインタラクションを得ることができます。

創業者であるCliff Weitzmanは、ビジネスユーザーの急切なニーズに対応するために、新しいアプリケーションが以前のブラウザ制限を突破したことを強調しています。Word文書作成やTeamsビデオ会議など、あらゆる場面でシステムレベルのショートカット呼び出しによって、「聞くことと得ること」が一致する効率的な業務が可能になります。

巨額の資金調達で、OpenAIの評価額は8,520億ドルに

AIハードウェアエコシステムが繁栄する中、下位の大規模モデルベンダーの資本神話を継続しています。最新の情報によると、OpenAIは1220億ドルもの巨額の資金調達を完了し、その後の評価額は驚くべき8,520億ドルまで上昇しました。