AI日報：テンセント渾元3D生成モデル2.5版リリース；海螺、画像人物参照機能を導入；百度、モバイル端スーパーインテリジェントアプリ「心響」上线

【AI日報】へようこそ！ここでは、AIの世界を探求するための毎日のガイドとして、AI分野のホットな話題を毎日お届けします。開発者を重視し、技術トレンドの把握や革新的なAI製品の応用に関する情報を提供します。

最新のAI製品詳細はこちら：https://top.aibase.com/

1、Manusのオープンソース代替品！Kortix-AIが汎用AIエージェントプラットフォームSunaを正式リリース

Kortix-AIは、Manusの代替を目指したオープンソースの汎用AIエージェントプラットフォームSunaを発表しました。Sunaは、ブラウザの自動化、ファイル管理、API統合などの機能を統合し、自然言語による会話を通じて複雑なタスクの自動処理を可能にします。このプロジェクトはGitHubで公開され、AI開発者や自動化愛好家の注目を集めています。

【AiBase要約：】
🌐 Sunaは、ブラウザの自動化、ファイル管理、API統合などの複数の機能を統合し、複雑なタスクの自動処理をサポートします。
📊 モジュール式設計により、Sunaはデータ処理からプロセス自動化までの包括的なソリューションを提供し、さまざまな実用的なシナリオに適用できます。
🚀 Sunaのオープンソース特性と柔軟な展開オプションにより、開発者と企業にとって理想的な選択肢となり、開発と展開の障壁を低くします。
詳細リンク:https://github.com/kortix-ai/suna

2、テンセント混元3D生成モデルが2.5バージョンを正式リリース

テンセント混元3D生成モデルの2.5バージョンが正式リリースされ、3D生成技術が超高精細時代に入ったことを示しています。今回のアップデートでは、モデリングの精細度とユーザーエクスペリエンスが大幅に向上し、3Dコンテンツ作成のハードルが低くなりました。新バージョンでは4K高精細テクスチャと細粒度のバンプマップをサポートし、モデルのリアリティと質感を大幅に向上させています。さらに、無料生成枠が2倍になり、より多くのクリエイターが利用できるようになり、3Dコンテンツ作成の普及を促進します。

【AiBase要約：】
🚀 モデリングの精細度が向上し、幾何学的解像度が1024に達し、モデルの表面がより滑らかになり、詳細情報がより豊富になりました。
💰 無料生成枠が2倍になり、毎日20回に増加し、より多くのクリエイターが利用できるようになりました。
🌐 混元3D生成APIがテンセントクラウドで公開され、エンタープライズレベルのアプリケーションをサポートし、3Dコンテンツ作成の普及を促進します。
詳細リンク:https://3d.hunyuan.tencent.com/

3、海螺が画像人物参照機能を発表、単一の画像に基づいて多角的な動的なポーズのキャラクター画像を生成できます

MiniMax傘下のHailuo AIは、Hailuo Imageの新しい機能であるCharacter Referenceを発表しました。これは、単一の参照画像に基づいて、多角的な動的なポーズのキャラクター画像を生成することを可能にします。この機能は、豊富な表情制御と映画のような光と影の効果を取り入れ、AI画像生成の創造的な表現とキャラクターの一貫性を大幅に向上させます。

【AiBase要約：】
🎭 多角的な動的なポーズ：ユーザーは単一の画像に基づいて、異なる視点とポーズでのキャラクター画像を生成でき、キャラクターの特徴を維持します。
💡 豊富な表情制御：多様なキャラクターの表情生成をサポートし、自然で生き生きとした感情表現を保証します。物語やブランドコンテンツの作成に適しています。
🎥 映画のような光と影と構図：プロフェッショナルな光と影の効果と最適化された構図を提供し、生成された結果は映画の画面に匹敵し、視覚的なインパクトを高めます。
詳細リンク:https://hailuoai.video/create

4、百度が「心響」アプリをリリース、複雑なタスクを完全に管理するスーパーAIエージェントと謳う

百度は最近、「心響」アプリをリリースしました。これはモバイル向けに設計された、複数のエージェントが連携するアプリケーションです。このアプリは、ユーザーが日常生活で直面する複雑なニーズをインテリジェントな手段で解決します。心響アプリは地図タイプのMCP機能を統合し、行程の自動記録と交通手段の推奨をサポートします。ユーザーはニーズを自然言語で記述するだけで、システムが迅速に移動計画を立てます。さらに、このアプリは健康と法律の分野で複数のエージェントの連携メカニズムを導入し、より専門的なコンサルティングサービスを提供します。

【AiBase要約：】
🗺️ 心響アプリは地図タイプのMCP機能を統合し、行程の自動記録と交通手段の推奨サービスを提供します。
🏥 健康分野では、システムが複数の「医師AI分身」を調整して合同診察を行い、包括的な健康アドバイスを提供します。
⚖️ 法律サービスでは、複数の弁護士AI分身からなる「弁護士ブレーン」が協力して、ユーザーに高品質の法律相談を提供します。

5、画期的なオープンソースTTSモデルDiaの発表：感情、非言語プロンプトを完全にサポートし、リアルな会話に匹敵

Nari Labsは、16億のパラメータを持つオープンソースのテキスト読み上げモデルDiaを発表しました。これは自然な会話を生成することを目指しています。ElevenLabsやGoogleの製品と比較して、Diaは特に感情的なトーンと非言語的なプロンプトにおいて優れたパフォーマンスを発揮します。このモデルはゼロ資金で開発され、Hugging FaceとGitHubでオープンソース化されており、ユーザーはダウンロードしてローカルに展開できます。

【AiBase要約：】
🎤 Diaは、16億のパラメータを持つオープンソースのテキスト読み上げモデルであり、自然な会話を生成することを目指しています。
💡 このモデルは感情的なトーンと非言語的な音声プロンプトをサポートし、さまざまなテキストラベルを正しく解釈できます。
🔗 Diaのコードと重みはHugging FaceとGitHubでオープンソース化されており、ユーザーはダウンロードして体験できます。
詳細リンク:https://github.com/nari-labs/dia

6、Grokの大幅アップデート！ビジュアル機能、多言語音声処理、リアルタイム検索機能が衝撃的な登場

Grokの最新のアップデートは、特にビジュアル処理、多言語音声インタラクション、リアルタイム検索において、ユーザーにとって顕著な機能強化をもたらしました。これらの新機能は、Grokのインテリジェンスレベルを高めるだけでなく、ユーザーのインタラクションエクスペリエンスも向上させます。ビジュアル機能により、ユーザーは画像をアップロードして分析でき、多言語音声処理は145種類の言語のリアルタイム音声インタラクションをサポートし、クロスリンガルコミュニケーションを大幅に容易にします。

【AiBase要約：】
🖼️ Grokのビジュアル処理機能が公開され、ユーザーは画像をアップロードして複雑なビジュアルコンテンツを分析し、アプリケーションの価値を高めることができます。
🌍 145種類の言語をサポートする多言語音声処理機能により、ユーザーはスムーズな音声インタラクションエクスペリエンスを楽しむことができ、さまざまなシナリオに適用できます。
🔍 新しく追加されたリアルタイム検索機能により、ユーザーは音声コマンドで最新の情報を迅速に取得でき、情報のタイムリー性と信頼性を向上させます。

7、Genspark AIスライドツールが発表され、専門的なプレゼンテーションの作成に革命を起こす

Gensparkが発表したAIスライドツールは、自動化とインテリジェントな統合により、専門的なプレゼンテーションの作成効率を大幅に向上させます。このツールはさまざまなデータ形式の処理をサポートし、学術レポートやビジネスプレゼンテーションを迅速に生成でき、特に学術研究や企業レポートに適しています。ユーザーからのフィードバックは好意的で、その効率性と芸術的なスタイルの機能がプレゼンテーションの作成に新しい可能性をもたらすと評価されており、今後さらに最適化と拡張が予定されています。

【AiBase要約：】
📊 複数形式のデータ統合：さまざまなデータ形式の処理をサポートし、重要な情報を自動的に抽出し、手動での整理時間を削減します。
📚 学術レポート生成：自然言語処理を使用して、引用文献と視覚化されたチャートを含む学術レポートを迅速に生成し、学術的なシナリオに適しています。
🎨 芸術的なスタイルのサポート：さまざまな視覚的な表現オプションを提供し、ユーザーはブランドのニーズに合わせてパーソナライズされたプレゼンテーションを生成できます。

8、Character.AIがAvatarFXモデルを発表：静止画の人物を「話す」ようにする

Character.AIが最近発表したAvatarFXモデルは、静止画を生きた話せるビデオキャラクターに変換できる画期的な技術です。高度な動的生成技術により、AvatarFXは画像内の人物の動的な表情と唇の同期を実現するだけでなく、多様な音声オプションを提供し、ユーザーの没入感を高めます。さらに、プラットフォームはユーザーの安全な体験を重視し、創作過程でのコンテンツの健全性を確保しています。

【AiBase要約：】
🎨 AvatarFXは拡散モデルベースの動的生成技術を利用して、静止画を生きたビデオキャラクターに変換し、リアルな表情と動きを実現します。
🔊 さまざまな音声機能が内蔵されており、ユーザーはさまざまなスタイルの音声を選択して、ストーリーテリングの鮮やかさと魅力を高めることができます。
🛡️ プラットフォームはユーザーの安全を重視し、強力な安全制御対策を提供して、健全な創作環境を確保し、不適切なコンテンツのリスクを回避します。
詳細リンク:https://character-ai.github.io/avatar-fx/

9、ホワイトボードとコードエディターを組み合わせたツールpad.ws：開発者は同じ画面で図面を描いてプログラミングでき、描きながらコードを書くことができる

pad.wsは革新的なオンラインツールであり、ホワイトボードとコードエディターを完璧に組み合わせ、開発者とデザイナーに新しい協調体験を提供します。これは複数のプログラミング言語をサポートし、リアルタイムコラボレーション、無限のキャンバスなどの機能を備えており、リモートチームや教育シーンの多様なニーズを満たします。ユーザーからのフィードバックによると、pad.wsはそのスムーズなユーザーエクスペリエンスとオープンソースの特性で広く歓迎されており、今後さらに革新的な機能が追加される予定です。

【AiBase要約：】
🖊️ 無限のキャンバスとコラボレーションホワイトボード：ユーザーは無限のキャンバス上にフローチャートやスケッチを描くことができ、複数ユーザーによるリアルタイムコラボレーションをサポートし、チームの効率性を向上させます。
💻 リアルタイムコード編集：複数のプログラミング言語をサポートするコードエディターが内蔵されており、構文の強調表示とエラーメッセージを提供し、描きながらコードを書くというスムーズな体験を実現します。
🔒 オープンソースとプライバシー保護：オープンソースツールとして、ユーザーは機能をカスタマイズでき、ローカル展開とエンドツーエンドの暗号化をサポートし、データの安全性を確保します。
詳細リンク:https://github.com/pad-ws/pad.ws

10、OpenBMB「卷姬」入社！長文生成を革新し、従来のレビューモデルに挑戦

OpenBMBオープンソースコミュニティの新しいメンバー「卷姬」は、長文生成分野で大きな注目を集めています。情報エントロピーと畳み込みアルゴリズムにより、「卷姬」は大量の文献を効率的に統合し、高品質のレビューレポートを生成できます。ユーザーはキーワードを提供するだけで、論理的で洞察力のあるコンテンツを取得できます。他のモデルとの横断的な評価によると、「卷姬」は構造、内容、引用において優れたパフォーマンスを示し、強力な技術力を示しています。

【AiBase要約：】
📚 「卷姬」は情報エントロピーと畳み込みアルゴリズムを利用して、大量の文献を迅速に統合し、高品質のレビューを生成します。
💻 ユーザーは簡単な操作でレビューレポートを取得でき、標準モードと専門モードをサポートします。
🚀 LLMxMapReduce-V2技術が「卷姬」を強化し、長文生成分野で強力な能力を発揮します。
詳細リンク:https://surveygo.thunlp.org/

11、テンセント混元大規模モデルAI読書アシスタント——ペンギン読書仲間が正式リリース

テンセントが世界読書日に発表した「ペンギン読書仲間」は、小学生に豊かな読書体験を提供することを目指した革新的なAI読書アシスタントです。この製品はAI技術と教育理念を組み合わせ、生徒の学年と興味に応じてパーソナライズされた書籍を推奨します。ロールプレイング、シナリオ生成などのインタラクティブな方法を通じて、生徒は古典作品を深く理解するだけでなく、ゲーム化された環境で読書への興味を高め、最終的に読書成果の定量化と追跡を実現します。