AIニュース：百度が「絵想プラットフォーム」と「MuseSteamer」を発表；アリババが音声で全身を制御するデジタル人間モデル「OmniAvatar」を発表

【AIニュース】へようこそ！ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野の注目すべきトピックを紹介し、開発者に焦点を当てて技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。

新鮮なAI製品クリックして詳細を確認：https://top.aibase.com/

1. オープンソースのエンドツーエンド音声大規模モデルStep-Audio-AQAA：音声を直接自然な音声に変換

Step-Audio-AQAAは、元の音声入力から自然で滑らかな音声出力を生成できるオープンソースのエンドツーエンド音声大規模モデルです。人間と機械のインタラクション体験を大きく向上させます。このモデルは、双コードブック音声タグジェネレータ、骨格LLM、およびニューラルボイサーの3つの部分から構成されており、音声中の複雑な情報を効率的に処理でき、将来のスマート音声アプリケーションの基盤となります。

【AiBase要約:】
🔊 Step-Audio-AQAAは、音声入力から自然な音声を直接生成し、人間と機械のインタラクション体験を向上させます。
📊 モデル構造は、双コードブック音声タグジェネレータ、骨格LLM、およびニューラルボイサーの3つのモジュールからなり、音声中の複雑な情報を効率的に捉えます。
🎤 Step-Audio-AQAAの登場は、音声インタラクション技術の重要な進展であり、将来的なスマート音声アプリケーションに新たなアイデアを提供します。
詳細リンク:https://huggingface.co/stepfun-ai/Step-Audio-AQAA

2. バイドゥが「絵想」プラットフォームとMuseSteamerをリリース：AIによる動画生成、一枚の画像でプロ級映画が完成！

バイドゥは「絵想」プラットフォームとMuseSteamerをリリースしました。生成型AIとマルチモーダル技術を活用して、検索や広告などのシーンに対応する包括的な動画生成ソリューションを提供します。MuseSteamerは高い制御性とコストパフォーマンスを持ち、ユーザーは画像をアップロードするだけでプロ級の動画コンテンツを作成できます。動画制作プロセスを大幅に簡素化します。

【AiBase要約:】
🎥 MuseSteamerは音声と映像の一体化生成をサポートし、映画のような質の高い結果を実現します。
🔄 連続10秒の動的ビデオ生成をサポートし、クリエイティブ効率を向上させます。
🖼️ 一枚の画像をアップロードするだけでプロ級の動画コンテンツを生成できます。
詳細リンク:https://huixiang.baidu.com/

3. 浙江大学とアリババが共同でOmniAvatarを発表：音声駆動の全身デジタルモデルが登場

浙江大学とアリババが共同で発表したOmniAvatarモデルは、音声駆動のデジタル人間技術において大きな突破を遂げました。自然で滑らかな全身のデジタル人間のビデオを生成でき、特に歌うシーンでは優れた性能を発揮します。このモデルはテキストのヒントにより生成の詳細を細かくコントロールでき、多様なシーンでの応用可能性があります。マーケティング、教育、エンターテインメントなど多くの分野に革新をもたらします。

【AiBase要約:】
🎧 音声駆動技術により、全身のデジタル人間のビデオを生成します。
🎨 テキストのヒントにより生成の詳細を調整可能で、柔軟性が向上します。
🌐 オープンソースプロジェクトとして、ビジネスシーンにおける広範な応用可能性を提供します。

4. バイドゥ検索が10年ぶりの大規模改版：AIスマートボックス、百看、AIアシスタントが全面進化

バイドゥ検索は、10年ぶりの最大規模の改編を行い、スマートボックス、百看、AIアシスタントなどの革新的な機能を導入しました。これにより、ユーザーの検索体験と創作能力が大きく向上しました。

【AiBase要約:】
🧠 スマートボックスは千文字の入力をサポートし、マルチモーダルの相互作用能力を強化します。
🎥 百看機能がアップグレードされ、混合コンテンツの出力とスマートエージェントサービスをサポートします。
📽️ AIアシスタントには動画通話機能が追加され、創作と検索能力が向上します。

5. xAIコントロールパネルにGrok4およびGrok4Codeの参照が追加され、次世代AIモデルのリリースが近づく

xAIは開発者用コントロールパネルにGrok4とGrok4Codeの参照を追加しました。これは次の世代の人工知能モデルのリリースが近づいていることを示しています。Grok4は「全能型AIの頂点」として説明されており、Grok4Codeはプログラミング最適化に特化しています。これらのモデルの参照は、公開リリースが最終準備段階に入っていることを示しています。

【AiBase要約:】
🧠 Grok4はxAIの旗艦モデルで、自然言語処理、数学的推論、総合的推論能力の向上に焦点を当てています。
💻 Grok4Codeはプログラミング最適化に特化しており、コードエディタとシームレスに統合される予定です。
🌐 xAIはAPIを通じてGrok4へのアクセスを提供し、今後はマルチモーダル機能を拡張して開発者の統合のハードルを下げていきます。

6. Gemini Liveの大幅アップデート！Googleアプリとのシームレスな接続、スマートライフがすぐそこ

Gemini Liveのアップデートは、Googleエコシステムとの深くの統合を通じて、ユーザーのスマートな相互作用体験を向上させました。同時にプライバシー保護にも配慮しており、スマートアシスタント分野での潜在能力を示しています。

【AiBase要約:】
📱 Gemini LiveはGoogle MapsやCalendarなどのアプリと深く統合され、アプリ間操作効率が向上します。
🧠 多モーダルの相互作用をサポートし、情報スキャン後にタスクやスケジュールを自動生成します。
🔒 Googleはプライバシー保護を重視しており、ユーザーは権限を自主的に管理してデータの安全性を確保できます。

7. Gemini LiveがGoogleアプリの全面統合へ！AIアシスタントがさらに賢くなる

Gemini Liveは大きなアップデートを迎え、Google Maps、Google Calendar、そしてSpotifyやYouTube Musicなどのサードパーティアプリとの深くの統合を追加しました。また、カメラ入力に基づく機能やよりスマートなインタラクション方法（カード形式インターフェースやCircle-to-Searchに似た機能）も導入されました。Googleはプライバシー保護にも注力し、ユーザーのデータの安全を確保しています。

【AiBase要約:】
📲 Gemini LiveはGoogle MapsやGoogle Calendarなどのアプリへの拡張サポートを追加し、インタラクション効率を向上させます。
🖼️ カメラ入力に基づく機能を追加し、コンサートポスターまたは手書きリストを認識して自動的に操作を行います。
🔒 Googleはプライバシーの保障を強調しており、ユーザーは設定でアプリとの接続やチャットデータのトレーニングをオフにすることができます。

8. Anthropicの年間収益が40億ドルに達し、年初比で4倍増加、Cursorとの競争が激化

記事によると、AIユニコーン企業であるAnthropicの年間収益はすでに40億ドルに達し、年初からほぼ4倍に成長しました。一方、その競合であるCursorも積極的に事業を拡大しており、両社の競争が激化しています。CursorはAnthropicの技術に依存し、トップランナーの採用とイノベーションを通じて競争力を高めています。人工知能技術の急速な発展により、プログラミングツールの需要が増加しており、各社が市場シェアを獲得しようと躍起になっています。

【AiBase要約:】
🤖 Anthropicの年間収益は40億ドルに達し、年初比でほぼ4倍になりました。
🔄 CursorはAnthropicのトップランナーを採用することで市場競争力を高めています。
📈 人工知能技術の急速な発展により、プログラミングツールの需要が継続的に増加しています。

AIニュース：百度が「絵想プラットフォーム」と「MuseSteamer」を発表；アリババが音声で全身を制御するデジタル人間モデル「OmniAvatar」を発表

関連推奨

中国のマルチモーダル大規模モデルが画期的な進展を遂げる MiniMax M3が正式にオープンソース化され、応答速度が倍増

ロブスターアイが画像・動画大規模モデルを公開し、4つの主要な画像・動画生成モデルに統合

アリババクラウド百炼がすべてCLI化され、オープンソース化されました：1行のコマンドでAIエージェントの全スタック機能を編成

クラウドとローカルを両方対応：オープンソースの強力なツールOsaurusでMacをワンランク上のAIサーバーに

単なる会話をするAIからさようなら：百靈大モデルのオープンソース版 Ring-2.6-1T は現実的で複雑なタスクのクローズドループを特徴とする