AIデイリーニュース: ソフトバンクが新しいビデオ制作ツールを発表; 小米が複数のKimi商標をムーンズダーへ譲渡; グーグルがAI Edge Galleryアプリを発表

「AIニュース」コーナーへようこそ!ここはあなたが毎日人工知能の世界を探究するためのガイドです。私たちは毎日、AI分野のホットなトピックをお届けし、開発者に焦点を当てて技術トレンドや革新的なAI製品の応用についてお伝えします。

新しいAI製品をチェック:https://top.aibase.com/

1. 小米、『Kimi』の商標複数件を月の暗面に譲渡

小米は、AIアシスタントに特化した月の暗面に「Kimi」の商標を譲渡しました。これは、小米が非コア資産を最適化する戦略調整の一環であり、同時に月の暗面がそのスマートアシスタント事業を拡大する助けとなります。

【AiBase要約:】

🌟 小米は北京月の暗面科技有限公司に複数の『Kimi』商標を譲渡し、非コア商標資源を最適化しました。

🤖 月の暗面が2023年にリリースしたKimiスマートアシスタントには、この商標譲渡が発展をサポートします。

🔍 この取引により、双方に市場開拓の良い機会をもたらし、スマートアシスタント分野の発展を推進する可能性があります。

2. マイクロソフト必应、新ビデオクリエイションツールBing Video Creatorを発表、ユーザーが簡単にAIビデオを作成可能

マイクロソフト必応は、OpenAI Soraモデルに基づくBingビデオクリエイターツールを発表しました。ユーザーはテキストプロンプトを通じて無料で短編動画を生成できますが、現在モバイルデバイスでのみ対応しており、生成速度は比較的遅いです。

【AiBase要約:】

✨ 新機能: Bingビデオクリエイターは初めて無料で公開され、ユーザーは簡単なテキスト記述だけで短編動画を生成できます。

📱 制限: 現在モバイルデバイスでのみ対応しており、デスクトップ端末ではまだ導入されていません。これにより一部ユーザーの体験が制限されます。

💰 激励仕組み: ユーザーは検索やショッピングでポイントを獲得し、10本の動画を無料で生成した後は課金が必要になります。

3. ElevenLabs、新バージョンの音声インタラクションプラットフォームConversational AI 2.0を発表: AI音声アシスタントは人間を超える

ElevenLabsはConversational AI 2.0を発表しました。このプラットフォームは対話の流暢さ、多言語サポート、企業級アプリケーション能力において重要な進展を遂げており、カスタマーサポート、マーケティング、コンテンツ制作などの分野に新たな可能性をもたらします。

【AiBase要約:】

先進的なターンベース対話モデルを導入し、ユーザーの対話リズムを正確にキャッチし、中断を防ぎ、対話をスムーズにする。

32以上の言語をスムーズに切り替え可能、自動言語検出機能内蔵でグローバルな企業向けのカスタマーサービスをサポート。

RAG技術を統合し、企業の知識ベースから情報を抽出し、回答の専門性と正確性を保証。

詳細リンク: https://elevenlabs.io/blog/conversational-ai-2-0

4. グーグルのGemini Live機能がiOSプラットフォームに正式登場、AI認識の新しい体験を開始

グーグルのGemini Live機能はiOSおよびiPadOSプラットフォームに登場し、AIによるシーンや画面コンテンツの認識をサポートしています。現在は無料で利用可能ですが、現時点ではアメリカ地域のユーザーのみが利用可能です。

【AiBase要約:】

✨ Gemini LiveはiOS/iPadOSでサポートされ、AIを使用して物体を迅速に認識し、情報を提供します。

📱 スクリーン共有機能により、ユーザーが簡単に画面を共有でき、インタラクション体験を強化します。

🌍 現在はアメリカでのみ利用可能ですが、グーグルはAI技術のより広範な活用を目指しています。

5. Character.AI、新機能AvatarFXをリリース: ユーザーがパーソナライズされたアニメーションビデオを作成可能

Character.AIはAvatarFXツールをリリースし、ユーザーがカスタマイズされたアニメーションビデオを作成できるようにしました。「シーン」と「フロー」機能が追加されましたが、乱用問題も存在します。

【AiBase要約:】

🌟 Character.AIはAvatarFXツールをリリースし、ユーザーがパーソナライズされたアニメーションビデオを作成可能にしました。

🎬 「シーン」と「フロー」機能の追加により、キャラクターの創作を共有できます。

⚠️ Character.AIは乱用事件により訴えられ、プラットフォームにはセキュリティ上の懸念があります。

詳細リンク: https://blog.character.ai/character-ai-unveils-new-ways-to-create/

6. OpenAI、Codex CLIをRustで再構築: Node.jsとの別れ

OpenAIは、AIプログラミングツールであるCodex CLIをNode.jsからRust言語に移行しました。この変更により、パフォーマンスの最適化、セキュリティの向上、ゼロ依存インストールなどの利点がもたらされました。

【AiBase要約:】

🌟 Codex CLIはTypeScriptとNode.jsからRustに移行し、パフォーマンスの最適化とセキュリティの向上を実現しました。

🔒 Rustはゼロ依存インストールを可能にし、サンドボックス環境での実行をサポートし、クロスプラットフォーム互換性を強化します。

🚀 Rustの言語特性により、Codex CLIはモデルコンテキストプロトコルクライアントとサーバーとして卓越したパフォーマンスを発揮します。

7. NUS、OmniConsistencyを開発: 低コストで画像スタイル化の一貫性を達成、GPT-4oに挑む!

シンガポール国立大学のチームは、OmniConsistencyプロジェクトを公開しました。独自の学習フレームワークとモジュール式アーキテクチャを採用し、極めて低いコストで画像スタイル化と一貫性を完璧に結合し、開発者に強力なツールを提供します。

【AiBase要約:】

✨ 配対画像データを使用してスタイル変換の一貫性を学習し、2600対の高品質画像と500時間のGPU計算能力で驚異的な結果を達成。

🔄 モジュール式アーキテクチャをサポートし、既存のスタイル化LoRAモジュールと簡単に統合でき、さまざまなプロジェクトに適用可能。

🌟 オープンソースエコシステムに商業級能力を注入し、AIアート創作の発展を推進します。

詳細リンク: https://github.com/showlab/OmniConsistency

8. Hume AI、EVI 3を発表: 情報を読んだ感情を理解する音声AI、GPT-4oよりも速い!

Hume AIは第3世代の音声インタラクションモデルEVI3を発表しました。卓越した感情理解能力とパーソナライズされたインタラクション体験を備え、音声AIの感情インタラクションと自然なコミュニケーションの分野における大きなブレークスルーを示しています。

【AiBase要約:】

✨ EVI3はユーザーの音声に含まれる感情を正確に識別し、特定のスタイルや個性に基づいて音声を生成できる。

🚀 低遅延でインテリジェントな反応があり、推論遅延は300ミリ秒以下で、感情表現と自然さはGPT-4oを超えています。

🌐 多様なシナリオで活用可能、カスタマーサービスやコンテンツ制作などに。将来は多言語対応を拡張し、グローバル市場をカバーすることを目指します。

詳細リンク: https://demo.hume.ai/

9. 内部情報: アップル社はChatGPTに匹敵する1500億パラメーターのAIモデルを持っているが発表せず

アップルはWWDCで基礎モデルを公開する計画ですが、その性能は限定的であり、より強力な内部AIモデルの公開予定はありません。経営陣の意見の違いにより、いくつかのAIプロジェクトが延期されています。WWDCは主にマーケティングのパフォーマンスショーです。

【AiBase要約:】

🍎 アップルはWWDCで公開されるAIモデルのパラメーターは約30億で、性能は小さく限定的であり、基本的な機能をサポートします。

🚀 アップルにはより大規模なAIモデルが存在し、最大で1500億パラメーターですが、現在は内部テスト専用であり、公開の予定はありません。

⏳ アップルの経営陣の意見が大きく分かれており、いくつかのAIプロジェクトが延期されています。WWDCでは主に小さな更新が行われ、革新的な機能はあまり見られません。

10. グーグル、AI Edge Galleryアプリをリリース: スマートフォンでのオフラインAI処理を実現

グーグルはAI Edge Galleryアプリをリリースし、ユーザーがスマホ上で複雑なAIモデルをオフラインで実行できるようにし、プライバシー保護を強化しました。また、多様なAI機能をサポートしますが、インストールと使用体験には改善の余地があります。

【AiBase要約:】

🌟 グーグルはAI Edge Galleryアプリをリリースし、スマホ上でオフラインでAIモデルを実行可能にし、プライバシー保護を強化しました。

📱 アプリはHugging Faceモデルをダウンロードでき、マルチラウンド対話や視覚質問応答など多彩なAI機能をサポートし、すべての処理はローカルで完了します。

🔒 ローカル処理方法は特に医療や金融などのセンシティブな業界に適しており、プライバシー問題を解決します。

詳細リンク: https://github.com/google-ai-edge/gallery

11. Cerebras Systems、推論APIを全面的にオープン: デベロッパーは毎日百万トークンを無料で取得可能

Cerebras Systemsは、その推論APIを全面的にオープンにし、待ちリストの制限を取り払い、毎日百万の無料トークンを提供しました。これにより、AI推論の効率が大幅に向上し、リアルタイム音声やビデオ処理分野で特に優れたパフォーマンスを発揮します。

【AiBase要約:】

🚀 推論APIが全面的にオープンになり、毎日百万の無料トークンを提供し、開発者のコストを大幅に削減します。

⚡ 推論速度はGPUの20倍に達し、特に複雑な推論モデルやコード生成タスクに最適です。

🌐 主流のオープンソースモデルをサポートし、Hugging FaceやMetaプラットフォームにスムーズに統合し、開発者のプロセスを簡素化します。

12. NVIDIAとMIT、Fast-dLLMフレームワークを共同開発: AI推論速度を27.6倍向上

AIデイリーニュース: ソフトバンクが新しいビデオ制作ツールを発表; 小米が複数のKimi商標をムーンズダーへ譲渡; グーグルがAI Edge Galleryアプリを発表

関連AIニュース

OpenAIはすべてのChatGPTユーザーにメモリ機能を無料で公開することを発表

CFish AudioがOpenAudio S1を発表：200万時間のデータ駆動型のスーパーナチュラルボイスモデル

a16zレポート：AIが1400億ドルの市場調査業界を変革、仮想消費者時代が到来

オープンソースの無料ボイスクローンモデルChatterBox AIのパフォーマンステストがElevenLabsを上回る

ヒューマノイドが MCP を使用한 AI アプリケーションの無料コースを開始

Claude Proの主要な機能がアップデート：研究モードとリモートMCPの統合が完全に利用可能に！