AIbase【AIニュース】コーナーへようこそ!

毎日3分で当日のAI大事件をチェック、AI業界のトレンドや革新的なAI製品の応用を理解するお手伝いをします。

さらに詳しいAI情報は:https://www.aibase.com/zh

1、テンセントが軽量な混元-A13Bモデルを開発し、中低性能GPUカード1枚で導入可能

微信截图_20250627155201.png

テンセントが「混元」大規模モデルシリーズの新メンバーとして、「混元-A13B」モデルをリリースしました。このモデルは専門家混合(MoE)アーキテクチャを使用し、合計パラメータ数は800億で、アクティブパラメータは130億に達しています。これにより、推論遅延と計算コストが大幅に削減され、個人開発者や中小企業向けにコストパフォーマンスの高いAIソリューションを提供します。このモデルは数学、科学、論理的推論タスクにおいて優れた性能を発揮し、ツールの呼び出しによって複雑な指示への応答を生成できます。

体験入口:https://hunyuan.tencent.com/

オープンソース場所:https://github.com/Tencent-Hunyuan。

2、Keling AIが「ビデオサウンドエフェクト」機能をリリース、視覚と聴覚を一致させる没入型体験を実現

QQ20250627-154533.png

Keling AIの全ビデオモデルシリーズに「ビデオサウンドエフェクト」機能が追加されました。ユーザーがビデオを作成する際には、同時に立体音響エフェクトも生成され、「見たものと聞いたものを一致させる」ことができます。アップグレードされた「サウンドエフェクト生成」機能では、「ビデオからサウンドエフェクト生成」モジュールが追加され、自社開発のマルチモーダルビデオサウンドエフェクトモデル「Kling-Foley」に基づいて、映像と音声のフレームレベルでの同期が可能です。この機能はすべてのユーザーに対して限定的に無料で公開されています。

3、Black ForestがFLUX.1Kontext [dev]を衝撃的なオープンソースでリリース:GPT-4oに匹敵する画像編集機能

image.png

Black Forest Labsが画像編集モデル「FLUX.1Kontext [dev]」をオープンソース化しました。このモデルは120億パラメータを持つ流マッチングトランスフォーマー構造を採用しており、コンシューマー級のハードウェアでも動作可能です。主な機能は文脈認識と正確な編集であり、テキストおよび画像入力の理解が可能で、真正な文脈生成と編集を実現し、複数回の反復編集にも対応しています。

オープンソース場所:https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Github:https://github.com/black-forest-labs/flux。

4、OpenAIがDeep Research API用の新モデルをリリース:o3/o4-mini-deep research

image.png

OpenAIは「o3-deep-research」と「o4-mini-deep-research」という2つのDeep Research API用の新モデルをリリースしました。これらは高次の分析および深層情報合成に特化しており、自動ウェブ検索、データ分析、コード実行などの機能をサポートしています。価格面では、「o3」モデルは1000回の呼び出しあたり10〜40ドル、そして「o4-mini」はより安価で2〜8ドルとなっています。

5、1999元から!小米のAIグラスがスマートウォッチを変革、撮影、支払い、音楽を一度に完璧に!

image.png

小米が初の人工知能ウェアラブル製品「小米AIグラス」を発表しました。このグラスには第一人称の撮影、音声アシスタント、オープンイヤーのヘッドホン機能が備わっており、電気変色技術によりユーザーにカスタマイズされた体験を提供します。軽量設計で、重さはわずか40グラムで、1200万画素の前面カメラを搭載し、2K30fpsの動画録画および配信機能をサポートしています。

6、迅雷がMCPサービスをリリース、一言でAIが自動的にダウンロード

搜狗高速浏览器截图20250626192546.png

迅雷は「MCPサービス」をリリースし、ユーザーは「一言」でAIが自動的にダウンロードタスクを完了させます。このサービスはPC版の迅雷とNAS版の迅雷に対応しており、現在すべてのユーザーが無料で利用可能です。迅雷 MCPは、国内・国外の主要な大規模モデルアプリケーションとの接続能力を備えています。例えば、Nanomind AI、Kouzi Space、Cursor、Cherry Studioなどです。

7、一押しで爆発的なビデオを生成!HeyGen AIビデオエージェントがコンテンツ制作界を席巻!

HeyGenはAIビデオエージェントをリリースしました。シンプルな素材アップロードで、物語の計画、脚本作成、カット選定などのビデオ制作プロセスを自動的に完了し、数分で直接公開可能なプロフェッショナルなビデオコンテンツを取得できます。多様なビデオタイプをサポートし、操作プロセスが簡単で、ビデオ編集スキルが不要です。AIがユーザーにスマートなヒントを提供し、素材のアップロードと創作要件の設定を簡単にします。AIが脚本から完成した映像のすべての作業を完了します。

8、注目!グーグルがGemma3nマルチモーダルモデルをオープンソースでリリース、スマートフォンでもクラウドAIの性能を実現

QQ20250627-101207.png

グーグルは端末側マルチモーダル大規模モデル「Gemma3n」をリリースし、スマートフォン、タブレット、ノートパソコンなどの端末側デバイスに強力なマルチモーダル機能を提供します。E2BとE4Bの2つのバージョンが提供され、それぞれの初期パラメータ数は5Bと8Bですが、メモリ使用量は従来の2Bおよび4Bモデルと同等で、それぞれ2GBおよび3GBのメモリで動作可能です。画像、音声、動画、テキストのマルチモーダル入力処理をネイティブでサポートし、140種類のテキスト言語と35種類の言語のマルチモーダル理解をサポートしています。

オープンソース場所:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4