【AIニュース】コーナーへようこそ!ここはあなたが毎日人工知能の世界を探究するためのガイドです。ここでは、AI分野のホットなトピックをお届けし、開発者向けに技術トレンドや革新的なAI製品の応用についてお伝えします。

新しいAI製品をクリックして詳しく見る:https://top.aibase.com/

1. 百度のPaddleOCR 3.0がオープンソースでリリース!OCR精度が13%向上しました

百度のPaddlePaddleチームがPaddleOCR 3.0バージョンをリリースし、テキスト認識精度、多言語サポート、手書き文字認識、ドキュメント解析能力を向上させました。また、国産ハードウェアのサポートを追加し、PP-OCRv5、PP-StructureV3、PP-ChatOCRv4などの主要機能も導入されました。

image.png

【AiBaseサマリー:】

🚀 全局面に対応したテキスト認識モデルPP-OCRv5は5種類のテキストタイプをサポートし、全体的な精度が13%向上し、シームレスなデプロイを実現しました。

📚 ドキュメント解析ソリューションPP-StructureV3はページレイアウト検出やテーブル認識能力を強化し、マルチシーンでの高精度解析で優れたパフォーマンスを発揮します。

🤖 PP-ChatOCRv4は文心大モデルと組み合わせ、重要な情報抽出精度が15%向上し、複雑なドキュメントの処理にも対応しています。

詳細リンク: https://github.com/PaddlePaddle/PaddleOCR

2. 昆仑万維の「天工スーパーアイティ」が公開!AIオフィス革命が到来、Deep ResearchはOpenAIのコストを40%削減!

「天工スーパーアイティ」は自社開発のDeep Research技術に基づくAIオフィスインテリジェントエージェントで、強力なマルチモーダルコンテンツ生成能力とOpenAIの40%しかかからないコストの優位性により、グローバルAIコミュニティで注目を集めています。

image.png

【AiBaseサマリー:】

✨ 天工スーパーアイティはマルチエージェントアーキテクチャを採用しており、5つの専門エージェントと1つの汎用エージェントが搭載され、オフィスコンテンツの多様な生成をサポートします。

🚀 技術の核となるDeep Researchモデルはコストが低く、効率が高く、GAIAベンチマークテストでOpenAI Deep Researchを上回る82.42点を獲得しました。

🌐 オープンソースフレームワークと低コストのデプロイメント戦略により、天工は中小企業や個人開発者の理想的な選択となっています。

詳細リンク: https://mcp.so/server/skywork-super-agents/Skywork-ai

3. OpenAIのCore APIがMCPをサポートし、インテリジェントエージェントの開発プロセスを簡素化

OpenAIのResponses APIにMCPサポートが追加され、AIモデルと外部ツールの統合の難易度を大幅に下げるとともに、画像生成、コードインタプリタ、ファイル検索機能の最適化などの機能がアップデートされました。

image.png

【AiBaseサマリー:】

✨ OpenAI Responses APIがMCPプロトコルをサポートし、開発者は少ないコードで外部ツールに接続できます。

🌟 新しい機能には画像生成、コードインタプリタ、および最適化されたファイル検索能力が含まれ、開発効率を向上させます。

🌐 MCPはAIインテリジェントエージェント開発の事実上の標準となり、プラットフォーム間の協力を促進し、柔軟性を向上させます。

4. xAIがウェブ検索API「Live Search」をリリース:AIによるリアルタイム情報収集を可能に

xAIは正式にLive Search APIをリリースしました。この機能により、開発者はGrokモデルを利用して多様なデータソースからリアルタイムで情報を検索できるようになります。このAPIは現在無料のパブリックテスト段階にあり、開発者に強力なツールを提供し、検索ロジックやデータ統合を簡素化します。

image.png

【AiBaseサマリー:】

🌟 Live Search APIは自律的な検索意思決定をサポートし、Grokは会話の文脈に基づいて自動的に検索が必要かどうかを判断します。

🌐 多様なデータソース(Xプラットフォーム、ウェブ、ニュース、RSSフィード)を提供し、情報が全面的かつリアルタイムで更新されます。

🔧 高度に柔軟で効率的な統合を可能にし、SDKをサポートしています。開発者は基礎URLとAPIキーを簡単に調整することで迅速に接続できます。

詳細リンク: https://docs.x.ai/docs/guides/live-search

5. GoogleのSparkify、質問を動画に変えて複雑な知識を瞬時に理解

Googleが発表したSparkifyはGeminiとVeoモデルを利用して、複雑な学習内容を直感的なアニメーションビデオに変換します。教育、科学普及、コンテンツ作成に広く活用されています。

image.png

【AiBaseサマリー:】

✨ 複雑な知識はアニメーションビデオで視覚的に表現され、理解効率が向上します。

🎥 Gemini2.5とVeo2モデルを利用し、高品質なアニメーションビデオを迅速に生成します。

🌍 多言語拡張が可能です。将来的には多くの地域や人々にサービスを提供します。

詳細リンク: https://sparkify.withgoogle.com/explore

6. Mistralが再びオープンソースに復帰:超効率的なコードAIモデルDevstralをリリース

Mistral AIは新たなオープンソース言語モデルDevstralをリリースしました。この軽量なモデルは代理AIソフトウェアの開発に特化しており、高性能でローカル環境でも動作します。オープンソースコミュニティの協力の力を見せつけました。

image.png

【AiBaseサマリー:】

Devstralは2400万パラメータを持ち、Apache2.0ライセンスに基づき自由にデプロイおよび商業利用が可能です。

パフォーマンスが優れており、SWE-Bench検証で多くの閉源モデルを上回り、ローカルおよびプライベートなシナリオで適用可能です。

Codestralシリーズの最新進展であり、Devstralは複数ファイルのコンテキスト理解をサポートし、複雑なソフトウェア開発タスクに適応します。

7. Video Oceanが2K/4K HDR動画生成ツールをリリース:価格性能比で全網を賑わせた

5月21日、潞晨科技が新しいAI動画生成ツールVideo Oceanをリリースしました。このツールは高品質な動画を高速で生成でき、多彩なエフェクトや機能を備え、価格は低く完全に無料です。クリエイターたちの間で一大ブームを引き起こしています。

image.png

【AiBaseサマリー:】

✨ 5~10秒で2K/4K HDR高品質動画を生成でき、さまざまなシーンでの創作に適応します。

🎥 数多くのテンプレートとエフェクト(例:Laughter、Cakeifyなど)を提供し、初心者でもプロ並みの動画を作成できます。

💰 価格は可塑2.0の1/10で完全に無料、多様なユーザー層から好評を博しています。

8. GoogleがAI生成コンテンツを識別する新ツールSynthID Detectorをリリース

Googleは、コンテンツが自身のAIツールによって生成されたものであるかどうかを識別する新ツールSynthID Detectorをリリースしました。このツールはAI生成コンテンツを検出し、SynthIDウォーターマーク部分をハイライト表示します。現在は早期テスト者向けに提供されています。

image.png

【AiBaseサマリー:】

🌟 SynthID DetectorはAI生成コンテンツを識別するための新しいツールで、画像、テキスト、音声、動画に対応しています。

🔍 このツールはアップロードされたコンテンツを自動的にスキャンし、SynthIDウォーターマークを探し出してハイライト表示します。

🚀 現在は早期テスト者向けに公開されており、将来的にはさらに多くのユーザーに広がります。

詳細リンク: https://blog.google/technology/ai/google-synthid-ai-content-detector/

9. GoogleのAIノートツールNotebookLMの急成長

Googleが提供するAIアシスタントノートツールNotebookLMは、過去半年間で月間アクセス数が56%増加しました。「音声概要」や多言語サポート、多様な用途に応じた機能により注目を集めています。

image.png

【AiBaseサマリー:】

🚀 NotebookLMの月間アクセス数は56%増加し、AIアプリケーション分野のダークホースとして注目を集めています。

🌐 50以上の言語でポッドキャストコンテンツを生成し、言語障壁を打破してユーザー体験を向上させます。

📚 学生、研究者、コンテンツクリエイターに適しており、学術からエンターテイメントまで幅広く活用されています。

10. Silicon Flowが推理モデルAPIをアップデートし、最大128Kのコンテキスト長をサポート

Silicon Flowはその推理モデルAPIをアップデートし、最大コンテキスト長を128Kにまで拡張しました。これによりモデルの推論能力と出力品質が向上し、思考チェーンと返答内容の長さを個別に制御できる機能を導入しました。これにより開発者がモデルのパフォーマンスをより柔軟に調整できるようになりました。

image.png

【AiBaseサマリー:】

🚀 最大128Kのコンテキスト長をサポートし、モデルの思考の深さと出力の完全性を大幅に向上させます。

🔍 思考チェーンと返答内容の長さを個別に制御する機能を導入し、開発者がモデルの挙動をより精密に調整できるようになりました。

⚠️ 長さ制限に達した場合、出力が切断され、その理由が明記されるため、使用の透明性を確保します。

詳細リンク: https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning

11. GoogleのDeepMindが新しいAI音楽生成モデルLyria2を発表:リアルタイム創作を可能に

DeepMindは新しい音楽生成モデルLyria2を発表しました。高品質な音声、リアルタイムインタラクション機能、多様なスタイルに対応しており、音楽創作に革命的な変化をもたらしました。

image.png

【AiBaseサマリー:】

🎶 高品質な音声:48kHzステレオ音声を生成でき、音楽の細部を正確に捉え、プロフェッショナルな音楽制作や商用プロジェクトに適しています。

⚡ リアルタイムインタラクション:Lyria RealTime機能を使えば、ユーザーは即座に音楽のスタイルやリズムを調整できます。

🌐 マルチモーダルサポート:Music AI Sandboxツールセットに統合され、テキスト、楽譜、または音声サンプルを入力として受け付け、多様な音楽スタイルをカバーします。

詳細リンク: https://deepmind.google/models/lyria/