【AIニュース】へようこそ!ここは毎日あなたが人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースを紹介し、開発者に焦点を当て、技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。

新しいAI製品クリックして詳細を確認https://app.aibase.com/zh

1、Keling AIがO1ビデオ大規模モデルを完全リリース:統一されたマルチモーダル構造で、1つの文でビデオ生成が可能

Keling AIは自社開発したO1ビデオ大規模モデルを完全リリースしました。このモデルはMVL統一インタラクティブアーキテクチャを採用しており、テキスト、画像、動画の3つの指示入力をサポートし、一度にテキストからビデオ生成、画像からビデオ生成、部分編集およびカメラズーム機能を実行できます。さらに、モデルは多視点主体構築技術によってカメラ切り替え時の「特徴ずれ」問題を解決し、映像の一貫性を確保しています。現在、O1モデルはKelingアプリと公式ウェブサイトで体験可能です。今後はAPIインターフェースを公開し、第三セクターのプラットフォームとの統合を予定しています。

image.png

【AiBaseの要点:】

🧠 O1ビデオ大規模モデルはMVL統一インタラクティブアーキテクチャを採用し、テキスト、画像、動画の3つの指示入力に対応しています。

🎬 一度にテキストからビデオ生成、画像からビデオ生成、部分編集およびカメラズームを完了します。

📊 Keling AIはAPIインターフェースを公開し、第三セクターのプラットフォームとの統合を計画しています。

2、Qwen APPにWan2.5を統合、ビデオ機能が大幅にアップグレード

Qwen APPにWan2.5モデルを統合し、ビデオ制作機能が顕著に向上しました。音声と動画の同時出力に対応し、ユーザーはカスタム画像とテキストを使用して高品質な動的ビデオコンテンツを生成できます。これにより、創作のハードルが低下し、ユーザーの創造意欲が刺激されます。

image.png

【AiBaseの要点:】

🎥 Qwen APPはWan2.5モデルを統合し、ビデオ制作機能が全面的に向上しました。

🎙️ 音声と動画の同時出力が可能で、音声と映像の同期を実現する高品質なビデオ生成が可能です。

🔄 ユーザーはカスタム画像とテキストをアップロードし、ダイナミックなダンスビデオを生成できます。

3、PixVerse V5.5リリース:「ディレクター級」の音声・映像同期をサポート

PixVerse V5.5バージョンのリリースにより、ビデオ制作に大きな変化がもたらされました。ユーザーは1つの文章を入力するだけで、音声と口元の同期が取れた高精細なビデオを生成でき、複数のカメラシーンの自動切り替えをサポートします。これにより、ビデオ制作の利便性が大きく向上しました。

image.png

【AiBaseの要点:】

🎥 1つの文章で高精細なビデオを生成し、音声と映像の同期を実現します。

🔄 複数のカメラシーンの自動切り替えにより、ビデオの物語性が向上します。

🚀 自社アーキテクチャにより、ビデオ生成の速度と品質が向上し、ワンストップサービスを提供します。

詳細リンク:https://pai.video

4、DeepSeek-V3.2正式リリース:イノベーションな疎注意力構造導入、APIコスト半減、性能はトップクラスの非公開モデルと同等

中国のAIスタートアップ企業であるDeepSeek AIは、DeepSeek-V3.2シリーズモデルをリリースしました。これはDeepSeek-V3.2と、高計算強化版のDeepSeek-V3.2-Specialeを含みます。新モデルでは、イノベーションな疎注意力メカニズム(DSA)が導入され、長文タスクの効率が向上し、APIコストも削減されました。DeepSeek-V3.2-Specialeバージョンは、高難度の推論タスクにおいて優れたパフォーマンスを示し、GPT-5を凌駕しています。また、本モデルにはオープンソースのカーネルとデモコードが提供され、研究者や企業による商用展開が可能になります。

image.png

【AiBaseの要点:】

🧠 イノベーションな疎注意力メカニズム(DSA)が導入され、長文タスクの効率が向上します。

🚀 DeepSeek-V3.2-Specialeバージョンは高難度の推論タスクにおいて優れたパフォーマンスを示し、GPT-5を上回っています。

📊 APIコストが50%削減され、研究者や企業による商用展開が可能になります。

詳細リンク:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

5、Runwayが新世代Gen-4.5ビデオ生成モデルをリリース、クリエイティブとビジュアル品質が向上

Runwayは最新のビデオ生成モデルGen-4.5をリリースしました。このモデルは、ビジュアルの正確さとクリエイティブなコントロールを大幅に向上させ、SNS向けのショートビデオ作成に適しています。競合他社に対して、Gen-4.5は物体とキャラクターの一貫性品質において優れているものの、因果関係の推理や時間的連続性に関する課題も存在しています。また、AIで生成されたコンテンツの真実性に関する業界内での議論が活発になり、免責事項の追加が推奨されています。

image.png

【AiBaseの要点:】

🎥 Gen-4.5モデルにより、ビデオ生成がより創造的かつビジュアルの一貫性を持ちます。

📱 このモデルは主にSNS向けのショートビデオに特化しており、他の競合企業が長編ビデオに焦点を当てていることとは戦略的に異なります。

⚖️ AIで生成されたコンテンツの真実性に関する議論が業界内で広がっており、真実と偽造を区別するための免責事項の追加が推奨されています。

6、Google AI検索体験が高速化:新デザインでシームレスな会話が実現、Gemini3Proが120か国に進出!

Googleは、人工知能(AI)の機能やモデルをより普及し使いやすくすることを目指して、いくつかの取り組みを進めています。一方で、Google AI概要からAIモードへの遷移体験を最適化するための新しいデザインをテストしています。他方では、Gemini3Proモデルが大規模な国際拡張を進行中です。

image.png

【AiBaseの要点:】

💡 AI体験を最適化し、シームレスな会話を実現します。

🌍 Gemini3Pro/Nano Banana Proが120の国と地域に拡張。

🚀 Google検索におけるAI機能を向上させます。

7、Lovart Touch Editリリース:軽くタッチするだけで編集可能、AI画像編集が「ゼロマスク」時代へ

LovartがリリースしたTouch Edit機能は、自然言語の指示とスマート認識技術を通じて、画像編集の効率と利便性を実現しました。ユーザーは手動操作なしで複雑な画像編集タスクを完了できるため、デザイン効率が大幅に向上します。

image.png

【AiBaseの要点:】

✨ Touch Editのコア機能:自然言語の指示により、画像要素の自動認識と編集が可能です。

🧩 Select & Remixにより、複数の画像を混ぜ合わせ、ユーザーがドラッグ&ドロップで再構成することが可能です。

⚙️ 技術統合:GPT-4o、Flux Pro、Soraなどのモデルを統合し、効率的なAIワークフローを提供します。

8、アントグループのAgentarが中国のインテリジェントエージェント開発の第一陣に選出

アントグループのAgentarプラットフォームは、技術アーキテクチャの完全性、製品の進化成熟度、金融分野での豊富な経験により、中国のインテリジェントエージェント開発の「第一陣」に選ばれました。これは、AIインテリジェントエージェント開発分野でのリーディングポジションを示しています。

image.png

【AiBaseの要点:】

🧠 アントグループのAgentarプラットフォームはインテリジェントエージェント開発分野でリーディングな実力を示しています。

💼 金融分野での豊富な技術経験とスケーラブルな実績があります。

📈 Agentar-Fin-R1推論大規模モデルが3つの金融ベンチマークテストで第1位を獲得しました。