AI音声合成分野において長年存在していた効率の課題に対して、アップル社は最近、テルアビブ大学と共同で「原則的粗粒度(PCG)」というイノベーションな研究を発表しました。この技術は、AIが音声を予測する検証方法を変えることで、音質に「損失がない」という前提で、音声生成速度を約40%向上させることに成功しました。

現在の主流となるテキストから音声への変換(TTS)モデルは多くが「自己回帰」メカニズムを使用しており、一つずつ次の音声セグメントを予測するような形になります。しかし、この方式は結果に対して非常に厳格であり、予測結果が事前に設定されたデータとわずかな聴感的な違いがあるだけで、強引に修正しようとします。これは大量の計算リソースを消費し、生成速度を著しく遅くしています。
アップルの研究チームが提案したPCG技術は、このような状況を打ち破りました。この技術のコアロジックは「共通点を見つけて差異を許容する」というものです。研究者は多くの微細な差異を持つ音声セグメントが人間の聴覚ではほぼ同じであることに気づきました。そのため、PCGは「音響類似グループ」の概念を取り入れ、従来の「正確なポイント検証」を「範囲検証」にアップグレードしました。AIが生成した予測値が適切な音響範囲内であれば、システムは直接採用します。
実際のテストでは、PCGは驚くべき成果を示しました。91.4%の音声セグメントを同グループ内の類似音に置き換えても、人の耳ではほとんど違いが感じられず、モデルの自然さスコアは4.09点に達しました。さらに、PCGは「推論ステージ」での最適化手段として、既存のモデルを再訓練することなく、わずか37MBの追加メモリで運用可能です。これにより、今後さまざまなモバイル端末で高品質で低遅延のAI音声サービスの普及が広がる道が開かれました。
重要なポイント:
🚀 速度が顕著に向上: PCG技術の導入により、AI音声生成速度が約40%向上し、テキストから音声への変換技術における遅延問題を効果的に解決しました。
👂 聴感品質が安定: 「範囲検証」を「正確なマッチング」に置き換えることで、効率を大幅に向上させながらも、音声の自然さや話者との類似度はほぼ損なわれません。
🛠️ コストが低く、導入が容易: この手法はモデルの再訓練を必要とせず、わずかな追加メモリコストで運用可能です。既存のAI音声推論システムを直接適用・最適化することが可能です。
