【AI日報】へようこそ!ここは毎日、人工知能の世界を探索するためのガイドです。毎日、AI分野のホットな情報を提供し、開発者に焦点を当てて、技術トレンドを理解し、革新的なAI製品の応用を学びます。

新規のAI製品:詳しく見るhttps://app.aibase.com/zh

1、Gemini 3 Flash登場:無料で高速、知能がプロを上回る、グーグルAIが完全に「ゼロ遅延」時代に突入

グーグルは新しい軽量モデルであるGemini3Flashを発表しました。その応答速度は前世代の3倍で、ほぼ「ゼロ遅延」と言えるほど高速であり、多くの高難度ベンチマークテストで同世代のエリートモデルであるGemini3Proを上回り、史上初の「小弟が大哥を倒す」Flashモデルとなりました。

image.png

【AiBase要約:】

🧪 SWE-benchというコード修正の権威的ランキングでは、Gemini3Flashは78%でGemini3Pro(76.2%)をわずかに上回りました。

🧠 GPQA Diamondという博士レベルの推論テストでは90.4%の高いスコアを記録しました。

⚡ Humanity’s Last Examという極めて難しい総合評価においては33.7%の成績を収め、前世代エリートモデルのGemini2.5Proよりも顕著に優れています。

2、火山エンジンFORCE会議で閃光:豆包大モデル1.8とSeedance 1.5 Proの発表、日間50兆トークンで中国第一に登頂

火山エンジンFORCE会議では、豆包大モデル1.8とビデオ生成モデルのSeedance 1.5 Proが発表され、「AI節約計画」も導入されました。これは企業が大規模モデルを使用するコストの壁を低くすることを目的としています。豆包大モデル1.8は複数の重要な指標で顕著な向上を遂げており、Seedance 1.5 Proはビデオ生成の品質と一貫性を向上させました。また、豆包大モデルの日間トークン使用量は50兆を突破し、中国第1位、世界第3位を維持しており、これにより技術製品から大規模な産業応用への移行を示しています。

image.png

【AiBase要約:】

🧠 豆包大モデル1.8は推論、多言語、コード生成、ツール呼び出しなどの重要な指標で顕著な向上を遂げました。

🎥 Seedance 1.5 Proはより長い時間、高いフレームレートでの制御可能な動画コンテンツ制作をサポートし、ショート動画、広告、ゲームなどに工業的な視覚生成能力を提供します。

💰 「AI節約計画」はモデル圧縮、推論最適化、リソーススケジューリングなどの技術手段を通じて、企業が大規模モデルを使用する際のコストの壁を低くすることを目的としています。

3、アップルがSHARPモデルを開源:長時間待つことなく、1秒で平面写真を3D空間に変換

アップルは最近、SHARPと呼ばれる新たなAIモデルをオープンソース化しました。このモデルは通常の2D画像を現実的な物理比率を持つ3Dシーンに変換でき、わずか1秒で可能です。SHARPの核心技術は「3Dガウススプレッティング」技術であり、深度学習を通じて一般的な空間幾何の法則を掌握し、一度の高速スキャンで数百万個の明るさ情報を持つ「ガウスボール」の位置を予測できます。SHARPの画像品質は業界最高レベルを超え、現実的なカメラ移動シミュレーションをサポートしています。現在、アップルはGitHubプラットフォームでSHARPのすべてのコードとリソースを公開し、世界中の開発者がダウンロードできるようにしています。

image.png

【AiBase要約:】

⚡ 速度の飛躍的進歩:SHARPモデルは2Dから3Dへの処理速度を3桁以上向上させ、1秒未満のほぼリアルタイムの変換体験を実現しました。

🌐 先進的な3D生成技術:3Dガウススプレッティング技術に基づき、単一のニューラルネットワークフワードで数百万個の3Dポイントを予測し、現実的な物理比率を正確に再現します。

🔓 オープンソースエコシステム:アップルはGitHub上でSHARPのコードとリソースをオープンソース化し、世界中の開発者が空間計算や3Dコンテンツ分野でのイノベーションを加速することを目的としています。

4、MetaがSAM Audioを発表:世界初の「クリックで音声を分離する」マルチモーダル音声モデル、ギター音、人声、犬の鳴き声をワンクリックで抽出

Metaは、テキスト、ビジュアル、および時間の断片のヒントを通じて、目標の音声をワンクリックで抽出できる、世界初のマルチモーダル音声分離モデルであるSAM Audioを発表しました。この技術は、人間の自然な音声認識方式をAIシステムに再現し、革命的な意味を持っています。

image.png

【AiBase要約:】

🎧 テキストのヒント:セマンティックな説明を通じて対応する音源を抽出します。

👁️ ビジュアルのヒント:ビデオ内の発音物体をクリックして音声を分離します。

⏱️ 時間の断片のヒント:時間区間を指定することで自動的に同種の音声を処理します。

詳細リンク:https://ai.meta.com/samaudio/ https://github.com/facebookresearch/sam-audio

5、MiniMaxが香港取引所の上市審査通過、国産大モデル「第一株」は上海に決まる可能性

MiniMaxは香港取引所の上市審査を通過し、資本市場に上場する最初の国内大モデル企業になる見込みです。その主要資産は大規模言語モデルとマルチモーダル生成技術であり、これは資本市場における大モデル商業化経路の認知度が向上したことを示し、今後のAI企業のIPOを促進する可能性があります。

image.png

【AiBase要約:】

🚀 MiniMaxは香港取引所の審査を通過し、初めて資本市場に上場する国内大モデル企業になりました。

💼 主要資産は大規模言語モデルとマルチモーダル生成技術であり、従来のコンピュータビジョン企業とは異なります。

📈 上場成功すれば、資本市場が大モデル商業化経路を認めたことを示し、その後のAI企業のIPOに道を開くかもしれません。

6、大モデル第一株争い:MiniMaxと智譜AIがともに香港取引所の審査通過

中国のAI大モデル分野には画期的な進展があり、MiniMaxと智譜AIがともに香港取引所の審査を通過し、香港株式市場に上場する予定です。両社は「グローバル大モデル第一株」の称号を競っています。

image.png

【AiBase要約:】

🚀 MiniMaxは香港取引所の審査を通過し、2026年1月に上場を計画しています。

💼 智譜AIも審査を通過し、中金会社などの投資銀行が主幹事となっています。

💰 両社ともトップクラスの投資機関の支援を受け、AGIベースモデルの資金調達新戦線を開始しました。

7、OpenAI正式発表:開発者はChatGPTにアプリを提出可能

OpenAIは世界中の開発者にChatGPTへのアプリ提出権限を開放しました。これにより、ChatGPTはAIネイティブアプリケーションプラットフォームに進化しました。開発者は最新ガイドラインに従って作品を提出し、審査を通過すればChatGPTアプリケーションリストに掲載され、ChatGPTに実践的能力を与えます。

image.png

【AiBase要約:】

🚀 エコシステムの門が開く:OpenAIはアプリ提出を開放し、開発者は機能をChatGPTに統合して世界中のユーザーに発見させることができます。

🛒 アプリリストが登場:ユーザーはツールメニューまたはchatgpt.com/appsにアクセスして精选されたAIアプリを検索・閲覧できます。

💰 結果的な収益の可能性が明確:外部ウェブサイトへのリンクを通じて実物商品の販売をサポートし、デジタル商品の収益化モデルを検討しています。

8、Qwen Appが高徳地図に接続:アリバが現実世界に踏み込む

Qwen Appが高徳地図に接続し、物理世界的な理解と行動能力を備えていることを示し、複雑な現実場面のニーズを処理できるようになり、さらに多くの主要な場面に接続する計画で、強力なスーパーインタークの構築を目指しています。

image.png

【AiBase要約:】

🚀 Qwen Appが高徳地図に接続し、質問回答から地理空間の推論への飛躍を果たしました。

🧭 Qwenは視覚的な意思決定カードを生成し、ナビゲーションやタクシーの呼び出しを直接呼び出すことができます。

🛍️ アリバはQwenを現実的な履行ネットワークを呼び出せるスーパーアクセスポイントに育てる計画です。

9、マイクロソフトがTRELLIS.2をオープンソース:画像を高精度3Dモデルに1クリックで変換

マイクロソフトはTRELLIS.2をオープンソース化しました。これは効率的な画像から3Dモデル生成ツールであり、高速に高品質な3Dモデルを生成し、さまざまなプラットフォームで使用可能です。TRELLIS.2はNVIDIA H100グラフィックカードのサポート下で優れた性能を発揮し、極短時間で高解像度モデルを生成できます。さらに、PBR四つのパッケージテクスチャが付属しており、特にECサイトの応用に適しています。

image.png

【AiBase要約:】

🌟 TRELLIS.2はマイクロソフトがオープンソース化した画像から3Dモデル生成ツールであり、迅速に高品質な3Dモデルを生成できます。

⏱️ このツールはNVIDIA H100グラフィックカードで512³解像度のモデルを3秒で生成し、非常に効率的です。

🛒 PBR四つのパッケージテクスチャが付属しており、ECユーザーが製品を3D表示に迅速に変換するために便利です。

詳細リンク:https://huggingface.co/microsoft/TRELLIS.2-4B

10、xAIが最も速い音声エージェントAPIを発表、中国語のリアルタイム検索と感情制御をサポート

xAIが発表したGrok音声エージェントAPIは、リアルタイム音声AI分野で優れた性能と競争力のある価格を示しています。このモデルは音声推論ベンチマークテストで優れた成績を収め、応答速度が他社を大幅に上回り、多言語自動検出、リアルタイムウェブ検索、感情制御などの機能をサポートしており、開発者に強力なツールを提供しています。

image.png

【AiBase要約:】

🔥 Grok音声エージェントAPIは1分間に0.05ドルで提供され、非常にコストパフォーマンスが良い。

🌐 中文を含む多言語の自動検出と自由な切り替えをサポートし、グローバルなユーザーのニーズに対応しています。

🧠 実際にウェブ検索と推論機能を深く統合し、返答内容が最新情報を反映していることを保証します。