【AIニュース】へようこそ!毎日あなたが人工知能の世界を探索するためのガイドです。毎日、AI分野の注目すべき情報をご提供し、開発者に焦点を当て、技術のトレンドや革新されたAI製品・応用を理解するお手伝いをします。

新鮮なAI製品:クリックして詳細を確認https://top.aibase.com/

1、グーグルが新規Gemini 2.5 Flash-Liteの安定版をリリース:速度とコストの完璧なバランス

グーグルはGemini 2.5 Flash-Liteの安定版をリリースしました。このモデルは速度とコストの間に良いバランスを取り、最大100万トークンのコンテキストをサポートし、多くの高機能を提供しています。価格戦略は競争力があり、パフォーマンスでは以前のバージョンを上回っています。

image.png

【AiBase要約:】

⚡Gemini 2.5 Flash-Liteは、グーグルが最新にリリースした最も高速でコストが最も低いAIモデルであり、GA(一般公開)に達しました。

💰100万入力トークンあたりの価格は0.10ドル、出力は0.40ドルで、音声入力の価格は40%低下しています。

🔧開発者は「gemini-2.5-flash-lite」というモデル名を指定して新しいバージョンを使用できます。従来のプレビュー版のエイリアスは8月25日に削除されます。

2、騰訊混元の独自ASR音声認識大モデルがimaプラットフォームに接続

騰訊混元のASR大モデルはimaプラットフォームで使用され、ユーザーにより効率的な音声入力体験を提供します。このモデルは強力な意味理解能力を持ち、特に中英語が混在する場面での表現が突出しており、知識ベースの質問応答やノート作成などのさまざまな応用シーンに対応しています。

image.png

【AiBase要約:】

✅ 腾讯混元ASR大モデルにより、スマートフォンアプリでの音声入力機能が実現され、入力効率が向上します。

💡 ダブルエンコーダーに基づくストリーミングASRアーキテクチャを採用し、意味理解能力が顕著に向上しています。

🌐 多言語および方言認識をサポートし、今後多様なニーズに対応するための最適化を継続します。

3、通義千問が最新のAIプログラミング大モデルQwen3-Coderを開源

アリババクラウドは、最新のAIプログラミングモデルQwen3-Coderを全面的にオープンソース化しました。このモデルはコード生成とエージェント機能においてトップレベルに達し、スマートプログラミング技術に新たな突破をもたらしました。Qwen3-Coderは強力なMoEアーキテクチャと長文処理能力を持ち、大規模なコードベースや動的データ処理に適しています。

image.png

【AiBase要約:】

🔥 Qwen3-Coderは先進的なMoEアーキテクチャを採用し、パラメータ数は480Bに達し、256Kのコンテキスト長をサポートしています。

💡 プレトレーニング段階で多角的な拡張戦略を採用し、コード能力を向上させました。7.5Tのトレーニングデータの70%がコードです。

🚀 オープンソースツールQwen Codeによって解析器とツールのサポートが強化され、開発者の使用体験が向上します。

詳細リンク:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Qwen Code GitHub:https://github.com/QwenLM/qwen-code

4、360がスマートグラスとAI録音ペンを発表。周鴻祎氏:グラスには表示機能が必要

360社の会長である Zhou Hongyi 氏は、同社がAI録音ペンとスマートグラスを発表すると明らかにしました。AI録音ペンはシーンをスマートに分析し要点をまとめることができ、スマートグラスには表示機能が必要で、提言機や翻訳ツールなどの新しいユースケースを創造し、コミュニケーション効率を向上させます。

image.png

【AiBase要約:】

🧠 AI録音ペンは異なるシーンをスマートに分析し、要点を正確にまとめることができます。

👓 スマートグラスには表示機能が必要で、優位性を際立たせ、新しいユースケースを作り出します。

🌐 スマートグラスは提言機や翻訳ツールとして使用でき、コミュニケーション効率を向上させます。

5、国内初の主任医師評価を通過した大モデルがクァークAI検索に登場

クァークヘルス大モデルは主任医師の筆記試験を通過し、医学分野における強力な推論能力を示し、すでにAI検索に統合されています。このモデルは「遅い思考能力」を構築し、高品質なデータトレーニングシステムを通じて複雑な医療問題の対応能力を向上させ、専門医師チームの支援により、モデル出力の専門性と正確性を確保しています。

image.png

【AiBase要約:】

🧠 クァークヘルス大モデルは主任医師の筆記試験を通過し、医学推論能力を示しています。

🔍 「遅い思考能力」を構築し、複雑な医療問題の段階的な導出能力を向上させています。

👩‍⚕️ 千人規模の専門医師の標注チームを持っており、モデル出力内容の専門性を確保しています。

6、零一万物が万智企業大モデルプラットフォームをリリースし、企業向けAgentスマートエージェントを発表

零一万物は万智企業大モデルプラットフォームをリリースし、企業向けAgentスマートエージェントを発表しました。これにより、企業に対してカスタマイズ可能で効率的なAIソリューションを提供し、産業AI時代の到来を推進します。

image.png

【AiBase要約:】

🧠 万智企業大モデルプラットフォーム2.0および企業向けAgentのリリースにより、AI技術が企業応用分野で重要な進展を遂げました。

🔒 企業向けAgentはセキュリティサンドボックスとMCPプロトコルを備え、データの安全とシステムの隔離を確保しています。

💼 Agentは招商、金融、販売、ゲームなど様々な分野で実装されており、生産性とタスク計画能力を向上させています。

詳細リンク:https://www.lingyiwanwu.com/businesspartnership

7、Hedra Live Avatarsが衝撃的なリリース!1分間わずか0.05ドル、ビデオAIエージェントが人間と機械のインタラクションの新時代を開く

Hedra Live Avatarsのリリースは、AIビデオ生成技術における大きな飛躍を示しています。その超低コスト、超低遅延、高い柔軟性が特徴で、コンテンツ制作、教育、カスタマーサービス、ゲームなど多くの分野に新たな可能性をもたらします。

image.png

【AiBase要約:】

⚡ 超低コスト:1分間わずか0.05ドルで、高品質なビデオAIエージェントへのアクセスの障壁を大幅に下げます。

⚡ 超低遅延:100ミリ秒以下の応答時間で、リアルタイムインタラクションの滑らかさと没入感を確保します。

⚡ 高度な柔軟性:主流の大規模言語モデルやテキストから音声への変換技術と互換性があり、カスタマイズ可能なインタラクティブ体験をサポートします。

詳細リンク:https://www.hedra.com

8、グーグル Gemini2.5の画像処理の革新:物体の識別だけでなく、抽象的概念と関係の理解も可能

グーグルがリリースしたGemini2.5 AIモデルのイノベーション機能「対話型画像分割」は、自然言語の指示を介して画像の内容を分析し、強調表示することが可能です。これは従来の画像分割技術を越えて、関係クエリ、論理に基づく指示、抽象的概念の理解をサポートします。この機能は画像編集、職場の安全性、保険業界などで広範囲に応用されており、開発者に便利なAPIインターフェースも提供しています。

image.png

【AiBase要約:】

🧠 複雑で意味のある自然言語指示を理解し、応答できる。

🌐 多言語の指示をサポートし、他の言語の物体ラベルを提供することも可能。

🔧 開発者はGemini APIを直接利用してこの機能にアクセスでき、JSON形式の結果を返します。

9、Metaが革新モデルAU-Netsをリリース、テキスト処理方法を革新

MetaがリリースしたAU-Netモデルは、自己回帰的なU-Net構造により、テキストの柔軟な処理を実現し、原始的なバイトから学び、動的に多層的な順序表現に組み立てることが可能です。これは大規模言語モデルの発展に新たな考え方をもたらします。

image.png

【AiBase要約:】

🚀 AU-Netアーキテクチャは自己回帰方式を採用し、バイトを動的に組み立てて多層的な順序表現を作成します。

📊 縮小と拡大のパスを採用し、宏观的な意味情報と局所的な詳細の効果的な融合を確保します。

⏩ 自己回帰生成メカニズムにより、推論効率が向上し、テキスト生成の連続性と正確性を確保します。

詳細リンク:https://github.com/facebookresearch/lingua/tree/main/apps/aunet

10、アップルAIチーム内のトラブル:自社開発とオープンソース夢破れ、第三者的な大規模モデルへの依頼も?

アップルAIチームはオープンソース計画が妨害されたことで内部不満が高まっています。上級副社長のFedericiは市場に十分なオープンソースモデルがあると考えており、アップルモデルがデバイス側での性能が不足していると述べました。一方で、Siriの更新を延期し、第三者的な大規模モデルとの協力を検討していることから、アップルがAI開発において戦略的な調整を行っていることがわかります。

image.png

【AiBase要約:】

🍎 アップルAIチームのオープンソース計画は上層部によって否定され、モデルの性能不足を懸念しています。

⚙️ アップルはデバイス優先戦略を堅持しており、AI技術の潜在能力を制限しています。

🤖 アップルはOpenAIやグーグルなどの第三者的な大規模モデルとの協力によりSiriの機能を向上させる可能性があります。

11、ワンクリックで教学アニメーションを生成!Fogsight AIが教育プレゼンテーションを革新、抽象概念を瞬時にアニメーションに

Fogsightは大規模言語モデルを基盤としたAIアニメーションエンジンであり、抽象的な概念を直感的で分かりやすいアニメーションに変換できます。キーワードや短いフレーズを入力することで、双語ナレーションと映画級の視覚効果を持つアニメーションショートフィルムを自動生成します。これは授業やオンラインコース、科学普及コンテンツの作成に適しています。

image.png