ようこそ【AIデイリーレポート】へ!ここはあなたが毎日AIの世界を探索するためのガイドです。私たちが日々AI分野のホットなトピックをお届けし、開発者向けに技術トレンドや革新的なAI製品の応用についてお伝えします。

新しいAI製品を知りたい方はこちらをクリック:https://top.aibase.com/

1. カースカはAI画像作成ツール「Poify」を発表、電商市場に焦点を当てた

カースカは最近、電商市場向けのAI画像作成ツール「Poify」を発表しました。このツールは、商品表示における効率と経済性の向上を目指しています。「Poify」の主な機能はテキストから画像生成(文生図)や画像から画像生成(図生図)で、特に電商のニーズに合わせてAIモデル試着や背景変更などの機能を提供しています。これにより商家はコストを削減しながら視覚的な魅力を高めることができます。

image.png

【AiBase要約:】

🛍️ Poifyは電商領域に特化し、効率的なAI画像作成ソリューションを提供しています。

📸 AIモデル試着などを利用して、商家は高品質な商品表示画像を簡単に生成し、従来の撮影コストを削減できます。

🚀 カースカはPoifyを通じて電商とAIの融合の先駆者になり、業界のさらなる発展を促進したいと考えています。

2. 字節跳動が8BパラメータのオープンソースコードモデルSeed-Coderをリリース

字節跳動のSeedチームは、新しいオープンソースコードモデルSeed-Coderをリリースしました。その8Bパラメータと優れたコード生成および推論能力により、業界関係者の注目を集めています。Seed-Coderは複数のベンチマークテストで優れた結果を出し、プログラミングの潜在力を示しています。その革新的なデータ処理方法と効率的なトレーニング戦略は、コード生成の質を向上させ、今後のAI主導のデータ処理に新しい道を開きました。

image.png

【AiBase要約:】

💻 Seed-Coderは8Bパラメータのオープンソースコードモデルであり、32Kのコンテキストをサポートし、コード生成とソフトウェアエンジニアリングタスクに特化しています。

🔍 小型言語モデルによる自動策定とフィルター処理によってコードデータを効率的に選別し、人間による介入を大幅に減少させます。

🏆 複数のベンチマークテストでSeed-Coderは優れたコード修正と生成能力を示し、軽量級プログラミングモデルのリーダー的存在となりました。

詳細リンク:https://github.com/ByteDance-Seed/Seed-Coder

3. 2025年十大IPが発表され、DeepSeek Appなどが選ばれる

2025年世界IP経済発展大会およびグローバルIPライセンス博覧会が広州で成功裡に行われ、多くの専門家や業界関係者が注目しました。今回の博覧会では、総計2368件の参加IPが評価され、専門家の審査とネットワーク投票を経て、10個の優れた作品が選ばれました。「哪吒之魔童鬧海」はその素晴らしい物語と精巧な制作により、年間十大IPの一つに選ばれました。

image.png

【AiBase要約:】

🎉 今回の博覧会には2368件の参加IPがあり、専門家の審査とネットワーク投票で十大IPが選ばれました。

🌟 「哪吒之魔童鬧海」はその優れたストーリーと制作の質により、年間十大IPの一つとなりました。

🎭 DeepSeek App、音楽劇「受呼召・敦煌」などは中国の文化クリエイティブの多様性を示しています。

4. Claude AI APIに新しいウェブ検索機能が追加される

Anthropicが新しくリリースしたClaude AI APIには、ウェブ検索機能が追加されました。これにより、モデルはリアルタイムでネットワーク情報をアクセスできるようになりました。この革新はClaudeが問題に答える正確性を高め、従来の検索エンジンに競争圧力を与えました。開発者はこの機能を利用してより精度の高いインテリジェントエージェントを構築し、金融、法務、開発者ツール、生産性などの分野で活用できます。

image.png

【AiBase要約:】

🌐 Claude AI APIはウェブ検索機能を追加し、リアルタイムでネットワーク情報をアクセスできるようになりました。

💼 四つのアプリケーション分野を提供します:金融、法務、開発者ツール、生産性。

📈 この新機能は開発者に精度の高いインテリジェントエージェントを作成する上で利便性をもたらし、競争力を向上させます。

5. アップルがiPhone対応の高速視覚言語モデルFastVLMを発表

アップルはFastVLMを正式にリリースしました。これは高解像度画像処理最適化の視覚言語モデルで、極めて高いエンコード速度と優れたパフォーマンスを誇り、特にモバイルデバイスでの実行に最適です。FastVLMの核心はその革新的なFastViTHDエンコーダーで、動的解像度調整や階層化トークン圧縮などの技術により、大幅な効率向上を実現しています。

image.png

【AiBase要約:】

🚀 FastVLMはFastViTHDエンコーダーにより85倍のエンコード速度向上を達成し、高解像度画像処理を最適化します。

📈 マルチモーダルタスクにおいて、FastVLMは優れたパフォーマンスを発揮し、特にSeedBenchとTextVQAベンチマークテストで目覚ましい成果を示しました。

🌐 FastVLMのオープンソースは開発者を引き寄せ、アップルの視覚言語モデル分野での技術革新とエコシステム構築を推進します。

詳細リンク:https://github.com/apple/ml-fastvlm/

6. Tencentが新たなAIフレームワーク「PrimitiveAnything」を発表:3D形状生成の方式を刷新!

「PrimitiveAnything」はTencentと清華大学との共同開発による革命的なフレームワークで、3D形状の抽象化と生成を再定義します。複雑な形状を基本要素に分解することで、幾何学的正確さを向上させ、学習効率を改善しました。その自動回帰生成手法と大規模なHumanPrimデータセットによる検証により、このフレームワークは再構築の正確さと人類の抽象パターンとの一致性において優位性を示し、特にインタラクティブ3Dアプリケーションに最適です。

image.png

【AiBase要約:】

🛠️ PrimitiveAnythingフレームワークはデコーダー形式のトランスフォーマーを使用して可変長の基本要素シーケンスを生成し、3D形状生成の幾何学的正確さと学習効率を向上させます。

📊 研究チームは大規模なHumanPrimデータセットを構築し、フレームワークが再構築の正確さと人類の抽象パターンとの一致性で優れたパフォーマンスを示すことを確認しました。

💻 このフレームワークはテキストや画像からの3Dコンテンツ生成をサポートし、ユーザーは生成された結果を簡単に編集してモデリングの質を高め、保存スペースを削減できます。

詳細リンク:https://huggingface.co/spaces/hyz317/PrimitiveAnything

7. 最初のスマートドキュメント処理ベンチマークが公開:Geminiがリードするが課題も残る

5月11日、スマートドキュメント処理分野にとって重要なマイルストーンを迎え、最初のビジュアル-言語モデル統合ベンチマークテストIDPリーダーボードが発表されました。このベンチマークは9229件のドキュメントと16のデータセットに基づき、現在の主流モデルが複数の主要タスクでどのようにパフォーマンスを発揮しているかを詳細に分析しました。Gemini2.5Flashは総合力で際立っていますが、OCRや分類タスクでは予想外の低下を見せ、マルチモーダル推論能力と基礎的なテキスト認識機能のバランスに関する課題が浮き彫りになりました。

image.png

【AiBase要約:】

📈 IDPリーダーボードは16のデータセットと9229件のドキュメントを使って、主流モデルが6つの主要タスクでどのようなパフォーマンスを発揮しているかを評価しました。

🤖 Gemini2.5Flashは総合力でトップですが、OCRと分類タスクでは前世代の製品に劣っており、モデルの反復改良におけるバランスの問題が明らかです。

📝 長いドキュメントの処理とテーブル抽出はビジュアル-言語モデルの弱点であり、最高のモデルでもこれらのタスクでは70%を突破できていません。

詳細リンク:https://github.com/nanonets/idp-leaderboard

8. グーグルが新たな境界を突破:Gemini 2.5 Proは6時間のビデオ理解を可能にし、AIビジュアル能力が新たな時代を迎える

グーグルのGemini 2.5 Proモデルはビデオ理解分野で大きな進展を遂げ、6時間のビデオ解析と最大200万トークンのコンテキストウィンドウをサポートしました。YouTubeリンクをAPIで解析し、VideoMMEベンチマークテストで優れた結果を出しました。その正確率は業界のトップレベルとほぼ同じです。この技術は教育、クリエイティブ産業、商業分析など多岐にわたる分野で応用され、AIビジュアル能力の新たな時代を切り開きました。

image.png

【AiBase要約:】

🎥 Gemini 2.5 Proは6時間のビデオ解析を可能にし、200万トークンのコンテキストウィンドウを持ち、YouTubeリンクをAPIで解析する初めてのモデルです。

📊 VideoMMEベンチマークテストでモデルの正確率は84.7%で、業界のトップレベルとわずか0.5%しか違いません。

💡 このモデルは教育、クリエイティブ産業、商業分析などに応用され、自動レポート生成やインタラクティブな学習アプリケーションを実現し、ユーザーエクスペリエンスを向上させます。

9. ユーザーの質問方法がAIモデルの正確性に影響を与える、簡潔な回答が誤情報につながるリスクがある

最近の研究によると、ユーザーが簡潔な回答を求めた場合、多くの言語モデルが誤ったまたは誤解を招く情報を作成しやすいことがわかりました。この研究は、簡潔なリクエストがモデルの正確性に悪影響を与えることを示しました。特に、ユーザーが自信を持って述べた場合、モデルの修正能力は著しく低下します。この現象は異なるモデル間で違いがあり、小さいモデルほど影響を受けやすいです。

image.png

【AiBase要約:】

📉 簡潔なリクエストは言語モデルの正確性を低下させる可能性があり、幻想抵抗能力は最大で20%低下するかもしれません。

🗣️ ユーザーのトーンや表現がモデルの修正能力に影響を与え、谄媚効果によりモデルは誤った情報を挑戦しなくなるかもしれません。

🔍 各モデルが現実的な条件でどのように振る舞うかは大きく異なり、小さなモデルは簡潔かつ自信のある表現に敏感になりやすいです。

10. 全球初のAIインテリジェントブラウザFellouがリリース:研究、投稿、メールを一括管理、効率が5倍にアップ!

Fellouのリリースはブラウザの一大革新をもたらし、世界初のAIインテリジェント自動化機能搭載ブラウザとして登場しました。従来の検索や閲覧だけでなく、思考、計画、複雑なタスクの実行ができ、ユーザーの生産性を大幅に向上させます。深層研究モードや作業フロー自動化により、研究者、マーケティング担当者、開発者に強力なサポートを提供し、特にクロスプラットフォームの協業やデータ処理で大きな可能性を秘めています。