人工知能の音声インタラクションは、「次元を下げた攻撃」のような進化を遂げています。最近、多くのユーザーがChatGPTのウェブ版およびアプリ版で「Bidi1」という新しい音声モデルを発見し、OpenAIがより大規模なテストを準備していることを示唆しています。これにより、AI音声インタラクションにこれまでにないスムーズな体験がもたらされることが予想されます。
長期間にわたり、AI音声アシスタントは「私が質問し、あなたが答え」という線形的な論理に従ってきました。ユーザーは、AIが前回の会話を完全に終了するまで待たなければなりません。しかし、Bidi1音声モデルの登場によって、この制約は完全に打ち破られました。その中心的な特徴は「双方向の並行処理」です。AIは話し始めながらもリアルタイムでユーザーの入力を聞くことができ、会話が途中でもユーザーの中断や新しい指示に即座に対応できます。

このようなインタラクティブなスタイルは、人間同士のコミュニケーションとAIとの対話の距離を大幅に縮めました。デモケースでは、モデルが「1から10まで数える」タスクを実行しているとき、ユーザーがいつでも「逆数え」を要求すると、モデルはスムーズにロジックを切り替え、新しい指示をすぐに実行します。このような「聞いて返す、リアルタイムで反応する」インタラクティブなロジックは、硬直した待機時間から解放され、会話が非常に自然で滑らかになります。
インターフェース操作の面では、Bidi1は非常に識別性があります。ユーザーが設定のモデルセレクターでこのオプションを選択すると、従来の音声ボブルが目立つ黄色に変わり、現在この高度な音声モードに切り替わっていることをユーザーに知らせます。
