【AIニュース】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野のホットな情報を提供し、開発者に焦点を当て、技術のトレンドや革新的なAI製品の応用を理解するお手伝いをします。

新規のAI製品クリックして詳細を見るhttps://app.aibase.com/zh

1、アリババ・トングイワンシャンがWan 2.2-S2Vモデルを発表:AI動画と音声の同期生成を実現

アリババ・トングイワンシャンチームはSNSプラットフォームXで最新のAIモデルWan 2.2-S2Vを発表しました。このモデルは動画と音声を同時に生成し、動画と音声の深く融合させることができます。これはマルチモーダルAI生成技術における重要な進展であり、コンテンツクリエイターにより効率的で表現力豊かなツールを提供しています。

image.png

【AiBase要約:】

🔥 Wan2.2-S2Vモデルは動画と音声の同期生成能力を持ち、従来の動画生成モデルの制限を突破しています。

🎵 モデルは歌う音声を含むAI動画を生成でき、マルチモーダルAI生成技術の革新性を示しています。

🚀 このモデルはAI動画生成分野の基準を再定義する可能性があり、没入感と現実感のあるコンテンツ生成の発展を推進します。

2、ビットボックスが新規3Dモデル生成ツール「3D Model Generator」を内側でテスト中

ビットボックス傘下のドウバオチームは、「3D Model Generator」という新しい3Dモデル生成ツールを開発中です。このツールはユーザーに制御可能な大規模な生成モデル機能を提供することを目的としています。画像に基づいた生成や画像とモデルファイルを組み合わせた生成が可能で、3Dモデリングのハードルを下げ、特にゲーム開発分野において重要な意義があります。

image.png

【AiBase要約:】

🖼️ 画像を基にした3Dモデル生成をサポートし、3Dモデリングのハードルを下げます。

⚙️ 画像とモデルファイルを組み合わせた生成方法を提供し、創作の柔軟性を高めます。

🚀 開放予定で、ドウバオの機能を拡張し、より広範なユーザーのニーズに対応します。

3、スマホでも動作!メイビィインテリジェントがMiniCPM-V4.5を発表:4.1億パラメータでGPT-4.1-miniを上回る性能

メイビィインテリジェントと清华大学NLP研究室は共同でMiniCPM-V4.5を発表しました。このモデルはエッジデバイスでの高性能かつ効率的な運用を特徴とし、複数のベンチマークテストで優れた成績を収めています。多言語、動画、高解像度画像処理をサポートし、AI技術の普及を促進しています。

image.png

【AiBase要約:】

🌟 4.1億パラメータで高性能を実現し、GPT-4.1-miniなど他のモデルを上回ります。

🖼️ 多画像、動画の理解および高解像度画像処理をサポートし、OCR性能は主流モデルを凌駕します。

📱 エッジデバイスへの効率的な導入が可能で、モバイルやオフラインシーンに適しています。

詳細リンク:https://huggingface.co/openbmb/MiniCPM-V-4_5

4、アップルがAI訓練の新方法を発表:タスクリストによる人間評価の代替でモデル性能を大幅向上

アップル社の研究チームは、リストフィードバックをベースとした強化学習(RLCF)という新たな訓練方法を提案しました。この方法では、従来の人間のいいね評価システムを具体的なタスクリストに置き換え、大規模言語モデルの複雑な指示の実行能力を大幅に向上させました。この方法は複数の評価基準で優れた結果を示し、特に複雑な多ステップタスクにおいて顕著な効果を発揮しています。

image.png

【AiBase要約:】

🍎 RLCF方法はタスクリストによって人間評価を置き換え、モデルの複雑な指示の実行能力を向上させます。

📊 FollowBench、InFoBenchなどのテストにおいて、性能が大幅に向上し、最高で8.2%の向上を記録しています。

⚙️ 大規模モデルでチェックリストを生成し、小規模モデルに最適化指針を提供しますが、強力な計算リソースが必要です。

5、マイクロソフトがVibeVoice-1.5Bモデルをオープンソース化:90分超の長時間音声合成の新技術

マイクロソフトは最新の音声モデルであるVibeVoice-1.5Bをオープンソース化しました。このモデルは音声合成技術において多くの重要な進展を遂げており、90分を超える超長時間音声合成、最大4人の話者サポート、そして3200倍の音声圧縮率を実現しています。また、二つのトークナイザーアーキテクチャにより、音色と意味の不一致問題を効果的に解決し、音声合成分野に新たな技術的突破をもたらしています。

image.png

【AiBase要約:】

🔊 VibeVoice-1.5Bモデルは一度に90分を超える超長時間の音声を合成でき、最大4人の話者をサポートします。

💾 このモデルは3200倍の音声圧縮率を達成し、高品質な音声品質を維持しています。

🤖 二つのトークナイザーアーキテクチャにより、音色と意味の不一致問題を解決しています。

詳細リンク:https://huggingface.co/microsoft/VibeVoice-1.5B

6、グーグルがImagen 4を正式リリース Gemini APIとGoogle AI Studioで公開

グーグルは新しいテキストから画像生成モデルであるImagen4をリリースし、Gemini APIとGoogle AI Studioを通じてユーザーに開放しました。このモデルには3つのバージョンがあり、それぞれ異なるニーズに最適化されており、画像生成の品質、速度、コスト効率を向上させ、芸術創作、広告デザインなど多くの業界に強力なツールを提供しています。

image.png

【AiBase要約:】

🌟 Imagen4標準版は全体的な画像生成品質を向上させ、特にテキストレンダリングの正確性が突出しています。

⚡ Imagen4Fastバージョンは高速画像生成と大量処理タスクを最適化し、処理速度が大幅に向上し、使用コストは1回の生成で0.02ドルまで低下しています。

🖼️ Imagen4Ultraバージョンはより精細な画像の細部を生成でき、ユーザーの入力テキストの指示をより正確に反映し、生成結果の一貫性と正確性を確保します。

7、ビットボックスのAI主要人材流失:視覚研究責任者冯佳時が正式に退職

冯佳時氏はビットボックスのSeed大規模モデル視覚基礎研究チームの中心的な責任者であり、彼の退職は会社のAI研究戦略に一定の影響を与えました。彼はコンピュータビジョン分野で深い学術的背景と豊富な経験を持ち、ビットボックスに加入して以降、大きな成果を上げています。

image.png

【AiBase要約:】

🔥 冯佳時氏はビットボックスのSeed大規模モデル視覚基礎研究チームの責任者であり、退職により注目を集めています。

💡 冯佳時氏は中国科学技術大学、中国科学院自動化研究所、シンガポール国立大学の教育背景を持ち、深い学術的背景を持っています。

🚀 冯佳時氏はビットボックス在籍中にマルチモーダルベースモデルや生成モデルなどの先端技術の研究をリードし、会社の技術革新に重要な貢献をしました。

8、NVIDIAがJetson Thorロボットコンピューティングプラットフォームを発表

NVIDIAは新しくなるJetson Thorロボットコンピューティングプラットフォームを発表しました。Blackwell GPUアーキテクチャを採用し、AI演算能力は2070TFLOPSに達し、前世代に比べて7.5倍の性能向上を実現しています。128GBのメモリを搭載し、複数のAIモデルを同時に動作させることができ、NVIDIA Isaacシミュレーションプラットフォームを統合しており、開発者に統一された開発環境を提供しています。

image.png

【AiBase要約:】

🚀 Jetson ThorはBlackwell GPUアーキテクチャを採用し、AI演算能力は2070TFLOPSに達し、性能向上が顕著です。

🧠 128GBの大容量メモリを搭載し、複数のタスク処理や複雑なシナリオでの効率的な動作が可能です。

🌐 NVIDIA Isaacシミュレーションプラットフォームを統合し、クラウドからエッジまでの統一された開発環境を提供します。

9、GensparkがAIDesignerをリリース:ワンクリックでブランド全体の設計を生成し、AIデザインの新時代を切り開く

Genspark AI Designerは革命的なAIデザインツールであり、ワンクリックで完全なブランドデザイン計画を生成できます。ロゴ、包装、ウェブサイトデザインなど複数の領域をカバーし、デザインのハードルを大幅に下げ、世界的なデザイン界とテクノロジー業界からの注目を浴びています。

image.png

【AiBase要約:】

🎨 Genspark AI Designerは多モーダル入力をサポートし、ベクトルアイコン、3Dレンダリング、アニメーション動画などのデザイン資産を生成できます。

🌐 自然言語指令を用いて複雑なデザインタスクを完了し、ブランドロゴ、包装、ウェブサイトなどの全プロセスの創造的解決策を提供します。

💡 AI Designerはブランドデザインプロセスを再定義し、クリエイターと企業に効率的で経済的な解決策を提供します。

詳細リンク:https://www.genspark.ai/ai_designer

10、ドウバオが未成年保護モードを正式リリース

ドウバオは未成年保護モードをリリースし、親が子供の利用行動を管理するためのものです。このモードでは一部の機能、例えば推薦動画や第三者のウェブページの閲覧などが無効になりますが、翻訳や深層研究などの機能は引き続き利用可能です。

image.png

【AiBase要約:】

🔒 未成年保護モードは親がパスワードで起動でき、一部の内容へのアクセスを制限できます。

📺 推奨動画や第三者のウェブページ閲覧機能はこのモードではデフォルトで無効になります。

🌐 翻訳や深層研究などの機能は引き続き利用可能で、学習や探求に影響を与えません。