【AIニュース】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当てて技術トレンドや革新的なAI製品・応用について理解を深めていただきます。
新鮮なAI製品クリックして詳細を見る:https://top.aibase.com/
1、アリババが链式推論をサポートする音声生成モデルThinkSoundをオープンソース化
アリババの音声AIチームは、世界で初めて链式推論をサポートする音声生成モデルThinkSoundをオープンソース化しました。このモデルは思考プロセス(Chain-of-Thought)技術を取り入れ、従来の動画から音声への変換技術の限界を突破し、高精度で同期性の高い空間音声生成を実現しました。この技術的進歩は、AI音声が「画像に音声をつける」段階から「画面の構造的理解」へと進化したことを示しています。
【AiBaseの要約:】
🧠 ThinkSoundは、多モーダル大規模言語モデルと統一された音声生成アーキテクチャを組み合わせ、正確な音声合成を実現しました。
📊 研究チームは、2531.8時間の高品質なサンプルを含むAudioCoTデータセットを構築し、モデルの複雑な指示処理能力を向上させました。
🚀 ThinkSoundは複数のテストデータセットで主流手法を上回る性能を示し、コードと事前学習重みはオープンソースで公開されています。
詳細リンク:https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound
2、グーグルVeo3の大規模アップグレード、静止画像から生動な動画生成をサポート
グーグルはAI動画生成ツールVeo3を大幅にアップグレードしました。ユーザーは1枚の静止画像をアップロードするだけで、高品質な音声と動画コンテンツを生成できるようになりました。これはAIが創作分野で持つ巨大な可能性を示しています。Veo3のコア機能には、複数のカメラアングルでのキャラクターの一貫性を保つこと、およびズームインなどのカメラ操作機能が含まれます。また、ユーザーは異なる品質の生成モデルを選択できますが、それに対応するクレジットが必要です。
【AiBaseの要約:】
🖼️ Veo3はアップグレード後、単一の静止画像から高品質な動的動画を生成できるようになりました。
🎥 カメラ操作機能(ズームインなど)をサポートし、動画の専門性を向上させます。
🔊 モデルの品質を選択可能ですが、それに応じたクレジットが必要です。
3、Hugging Faceが新世代の小パラメータモデルSmolLM3をリリース:128Kの文脈、二つの推論モード
Hugging FaceはSmolLM3をリリースしました。これは30億パラメータを持つ小型オープンソースモデルであり、Llama-3.2-3BやQwen2.5-3Bよりも高性能です。このモデルは複数言語の処理をサポートしており、二つの推論モード(深い思考と非思考)を備え、研究と最適化を促進するためにアーキテクチャの詳細も公開しています。
【AiBaseの要約:】
🧠 SmolLM3は30億パラメータを持ち、同種のオープンソースモデルを上回る性能を発揮し、多言語処理をサポートします。
⚙️ 深い思考と非思考の2つの推論モードを提供し、さまざまなニーズに対応可能です。
📊 先進的なtransformerデコーダー構造を採用し、3段階のハイブリッドトレーニングにより能力を向上させています。
詳細リンク:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base
4、アリババがWebSailorを開源、強力な推論と検索能力を備える
アリババ通義がネットワークエージェントWebSailorをオープンソース化しました。このモデルは中英文のタスクにおいてBrowseComp評価セットで優れた成績を収め、DeepSeek R1やGrok-3などの閉鎖型モデルを上回りました。銀河証券はAIエージェント経済が全面的に始まったと指摘し、関連するSAAS企業の注目を呼びました。関連会社である焦点科技や中科金財はすでにAIエージェント技術の応用に取り組んでおり、スマートエージェント技術の発展を促進しています。
【AiBaseの要約:】
📌 アリババがWebSailorを開源し、強力な推論と検索能力を備えています。
📈 銀河証券はAIエージェント経済が全面的に始まったと指摘し、関連SAAS企業を注目すべきだと提案しています。
💡 焦点科技や中科金財のような関連企業はスマートエージェント技術の応用において明確な優位性を持っています。
詳細リンク:https://github.com/Alibaba-NLP/WebAgent
5、MoonvalleyがMarey Realism v1.5をリリース:ネイティブな1080P AI動画モデル、著作権リスクゼロで業界の新風を巻き起こす
MoonvalleyがリリースしたMarey Realism v1.5 AI動画生成モデルは、画質、創作自由度、法的合規性において全面的なアップグレードを実現しました。ネイティブな1080P動画生成能力、認可済みコンテンツに基づくトレーニングデータ、複雑な指示の正確な解釈能力によって、映画制作や広告クリエイティブにより安全で効率的なツールを提供します。
【AiBaseの要約:】
🎥 ネイティブな1080P動画生成能力を持ち、本物の撮影に近い視覚体験を提供します。
🔒 100%の認可済みデータでトレーニングされ、著作権リスクを完全に回避します。
🔄 テキストから動画、画像から動画への生成をサポートし、創作の柔軟性を高めます。
6、Vidu Q1の驚異的なアップグレード:参照から動画生成は最大7枚の画像をサポート、AI動画生成がさらに進化
Vidu Q1の「参照から動画生成」機能は、最大7枚の参照画像をアップロードし、視覚的に一貫性が高い1080pの動画を生成できるようにしました。この技術は意味融合により、複数の画像要素が動画内で一貫性を保つようにし、従来のAI動画生成におけるシーンの断絶やキャラクターの歪み問題を解決しました。これにより、クリエイターにとって強力なツールが提供されます。
【AiBaseの要約:】
🎥 最大7枚の参照画像をサポートし、動画クリエイションの柔軟性を向上させます。
🔍 意味融合技術により、複数の画像要素が動画内で高い一貫性を保つことができます。
🔄 複数主体の一貫性技術により、複雑なシーンの連続的な視覚体験を実現します。
7、アップルがChatGPTに似たAIカスタマーサポートアシスタントを開発中、ユーザー支援体験を向上
アップル社は、ユーザーに対してよりスマートで効率的なカスタマーサポート体験を提供するため、人工知能を基盤とした「サポートアシスタント」を開発中です。この機能はApple Supportアプリケーションのコード中に確認され、今後ユーザーがカスタマーサポートに連絡する前にAIによって解決策が提示されるようになる予定です。
【AiBaseの要約:】
🍎 アップルはAIを基盤としたサポートアシスタントを開発中で、カスタマーサービスの効率を向上させます。
💬 ユーザーはカスタマーサポートに連絡する前にAIにより問題の解決策を得ることができ、待機時間を短縮できます。
🔄 サポートアシスタントはファイルのアップロードをサポートし、インタラクティブな体験を豊かにします。
8、飛書が複数のAI新製品を発表、企業向け「豆包」を構築
飛書は知識問答、AIミーティング、Aily、飛書妙搭などを含む複数のAI製品を発表し、AIの企業向け応用の実装を加速しています。同時に、飛書は業界初のAIアプリケーション成熟度モデルを発表し、企業がAI製品の実際の効果を評価する能力を向上させました。
【AiBaseの要約:】
🚀 飛書は複数のAI製品をリリースし、企業のスマート化運営を支援します。
📊 AIアプリケーション成熟度モデルを発表し、企業がAI製品の判断力を向上させます。
📈 飛書マルチビュー表の性能とAI能力が飛躍的に向上し、大規模なデータ処理をサポートします。
9、マイクロソフト、OpenAI、Anthropicが教育者向けAIトレーニングセンターを共同で設立
米国教師連盟(AFT)は、マイクロソフト、OpenAI、Anthropicとともに全国AI教育学院を設立しました。このプロジェクトは、教師に無料のAIツールトレーニングを提供し、彼らが人工知能技術をより効果的に活用できるようにすることを目的としています。このプロジェクトは2300万ドルの資金を獲得し、教育分野の技術変革を推進しています。
【AiBaseの要約:】
👩🏫 教師はAIトレーニングを通じて新しい技術を習得し、教育の中で主導的地位を確保します。
💰 マイクロソフト、OpenAI、Anthropicは2300万ドルの資金を提供し、AI教育プロジェクトを支援します。
📚 AI学院は教育の民主化を目指し、技術が生徒と教員のために役立つことを確保しようと努力しています。