記事本文

科大訊飛の超擬人インタラクションAPIが正式リリース、訊飛オープンプラットフォームで利用可能に

公開AI二ュ-ス

時間 :Jul 8, 2025

読む :1分

2024年8月、科大訊飛は正式に「星火極速超擬人インタラクティブ技術」を発表しました。エンド・トゥ・エンドの音声モデリングと多次元の感情分離トレーニングにより、応答速度、感情共鳴、音声コントロール表現の3つの主要な突破を実現しました。この技術はユーザーの音声における感情の変動を正確に認識し、適切なトーンでリアルタイムで返答でき、語速、音色、キャラクター設定の動的調整をサポートします。これは、音声インタラクションが「機能の実現」から「感情のつながり」への飛躍的な進化を示しています。

現在、「超擬人インタラクティブAPI」は正式に科大訊飛オープンプラットフォームにリリースされ、開発者は低コストで技術能力を呼び出せます。ゲーム領域では、NPCがプレイヤーの感情に応じて対話戦略を動的に調整できます。教育シーンでは、AIの英会話パートナーがネイティブ講師のリアルな反応を模倣できます。観光文化産業では「デジタルガイド」が登場し、キャラクターとしての役割プレイを通じて訪問者と深く交流しています。ある観光地の試験導入では、この技術を搭載したガイドAIによって訪問者の滞在時間が40%増加し、再購入率が25%上昇しました。

微信截图_20250708090735.png

従来の音声インタラクティブシステムは「音声認識-大規模モデル処理-音声合成」の直列構造を採用しており、平均応答時間は3秒以上になることがあります。また、感情伝達はテキスト内容に依存し、音声内のトーンやリズムなどの副言語情報は捕捉できません。星火極速超擬人インタラクティブ技術は統一されたニューラルネットワークフレームワークを採用し、音声から音声へのエンド・トゥ・エンドモデリングを直接実現します。音声信号は音声エンコーダーで特徴を抽出され、テキストの意味表現と一致させた後、マルチモーダルの大規模モデルが出力表現を予測し、最終的に音声デコーダーで自然な感情と正確なリズムを持つ合成音声を生成します。この革新により、インタラクションの遅延は0.5秒以内に圧縮され、応答形式は「あなたが尋ねれば私があなたに答える」から「リアルタイムでの会話」へと進化しました。

真の感情共鳴を実現するために、技術チームは多次元の音声属性分離表現体系を構築しました。コンテンツ、感情、語種、音色、リズムなどの要素を分離してトレーニングします。比較学習とマスク予測を用いて、システムは音声中の喜び、怒り、不安などの感情を正確に識別し、自動的に返答戦略を調整します。例えば、ユーザーが急いで道を尋ねるときには、AIは落ち着いたトーンで迅速にルートを計画します。ユーザーが面白いことを話すときには、AIは軽快なトーンで話題を広げます。また、開発者はAPIを介してAIキャラクターの設定をカスタマイズし、特定の価値観や言語スタイルを持たせたり、有名人の声を模倣してインタラクションを行うこともできます。

アプリケーションのハードルを下げるために、科大訊飛は段階的な価格戦略を提供しています。API呼び出しコストは最低0.1元/分まで下がり、企業ユーザーは認証を通じて3か月間、10時間の無料試用枠を得られます。従来の音声インタラクティブシステムでは音声認識、合成、NLPなどのモジュールを個別に購入する必要がありましたが、星火極速超擬人技術は全体のコストを60%以上削減しています。

テンセント・ホンイアンが業界初のアートグレードの3D生成大規模モデルHunyuan3D-PolyGenを発表

7月7日、テンセント・ホンイアン3Dチームは業界初のアートグレードの3D生成大規模モデル「Hunyuan3D-PolyGen」を発表しました。自社開発の高圧縮率表現技術BPTと自己回帰的なメッシュ生成フレームワークにより、数万面の複雑な幾何学モデルの正確な生成を実現しています。このモデルは、3Dアセット生成において布線品質の悪さや面数の多さ、後工程での編集困難などの核心的な課題を画期的に解決し、アーティストのモデリング効率を70％以上向上させています。関連機能はすでにテンセント・ホンイアン3D AIクリエーションエンジンに搭載され、多数のゲーム開発プロセスに統合されています。従来の

Jul 8, 2025

78.7k

マイクロソフトがDeep Researchをリリース：BingとOpenAIの深く統合された革新による研究自動化

マイクロソフトがDeep Researchという研究ツールを発表し、Bing検索とOpenAI技術を統合して研究の自動化を実現しました。このツールはo3-deep-researchのコア技術を採用しており、作業フローや4つの重要な工程から構成されています。まずGPT-4o/4.1とユーザーとの対話によってニーズを明確にする；次にBingを呼び出して最新のデータを取得する；次に知能分析と推論を行う；最後に構造化されたレポートを生成し、答え、推論プロセス、引用元、明確化記録を含みます。このツールはAzure AIとサポートされます

Jul 8, 2025

95.4k

騰訊が新たな記録を樹立！初のアートレベル3D生成大規模モデルが衝撃的なリリース電腦モデリング効率が70%以上向上！

テンセントは業界初の美術級3D生成AI「Hunyuan3D-PolyGen」を発表。独自開発のBPT技術で配線品質と複雑形状の課題を解決。高精度モデル生成が可能で、ゲーム制作効率70%向上。アーティストの創造性支援と3D業界の発展に貢献。....

Jul 8, 2025

91.8k

ChatGPT 新機能一緒に学ぶ露呈：未来の教育の新しいアシスタント？

ChatGPTは、質問を通じた誘導方式でユーザーの能動的な思考を促進する新しい学習機能をリリースしました。これは、OpenAIがGoogle LearnLMのために設計したインタラクティブな学習戦略に似ています。この機能は多人数による協働学習モードをサポートする可能性があるものの、現時点では公式には公開時間や利用条件が確認されていません。この教育機能は注目を集め、教育支援のイノベーティブなツールと見なされる一方で、高等教育の質に関する懸念も引き起こしています。ChatGPTは、教育アプリケーションと不正防止のニーズのバランスを取るために誘導型学習を試みており、その今後の発展は注目に値します。

Jul 8, 2025

98.2k

CoreWeaveがCore Scientificを買収し、AIインフラストラクチャの展開を強化

AIインフラストラクチャ企業であるCoreWeaveは、90億ドルで全株式によるデータセンター運営会社であるCore Scientificを買収する予定で、2025年4四半期に完了する見込みです。今回の買収により、CoreWeaveは運用コストを削減し、外部への依存度を減らすとともに、AI計算能力を強化することができます。Core Scientificには現在1.3ギガワットの電力容量があり、さらに1ギガワットの拡張可能性があるため、CoreWeaveの増加するAI計算ニーズを支えることになります。以前からOpenAIはCoreへ資金を提供しています。

Jul 8, 2025

89.8k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

科大訊飛の超擬人インタラクションAPIが正式リリース、訊飛オープンプラットフォームで利用可能に

関連推奨

テンセント・ホンイアンが業界初のアートグレードの3D生成大規模モデルHunyuan3D-PolyGenを発表

マイクロソフトがDeep Researchをリリース：BingとOpenAIの深く統合された革新による研究自動化

騰訊が新たな記録を樹立！初のアートレベル3D生成大規模モデルが衝撃的なリリース 電腦モデリング効率が70%以上向上！

ChatGPT 新機能 一緒に学ぶ 露呈：未来の教育の新しいアシスタント？

CoreWeaveがCore Scientificを買収し、AIインフラストラクチャの展開を強化

騰訊が新たな記録を樹立！初のアートレベル3D生成大規模モデルが衝撃的なリリース電腦モデリング効率が70%以上向上！

ChatGPT 新機能一緒に学ぶ露呈：未来の教育の新しいアシスタント？