【AIデイリーレポート】へようこそ!ここは毎日人工知能の世界を探索するためのガイドです。毎日、AI分野の注目ニュースをお届けし、開発者に焦点を当てて技術のトレンドや革新されたAI製品・応用についてご案内いたします。

新鮮なAI製品クリックして詳細を確認https://app.aibase.com/zh

1、Kling AIがデジタル人間の新機能をリリース:1枚の画像から1分間の高解像度動画を作成

Kling AIが提供するデジタル人間機能は、静止画から動画への飛躍的な進化を実現しました。ユーザーはキャラクターの画像とテキストまたは音声入力を提供するだけで、高品質な動画を迅速に生成できます。この技術は多モーダル理解と動画生成モデルに基づいており、さまざまなキャラクターの作成や多言語処理をサポートし、コンテンツ制作、教育訓練、企業宣伝に新たな可能性をもたらします。

image.png

【AiBase要約:】

📷 Kling AIがデジタル人間機能をリリースし、静止画から動画への変換を実現。

🎙️ 多言語対応(中国語、英語、日本語、韓国語など)。

💡 動画制作のハードルを下げ、一般ユーザーでもプロ級のデジタル人間動画を簡単に作成可能。

詳細リンク:https://klingavatar.github.io/

2、騰訊(Tencent)が新技術「SRPO」を公開:大規模モデルの「油分」除去により、AI生成画像がよりリアルに!

騰訊(Tencent)の混元チームは香港中文大学(深圳)および清華大学と共同で、SRPO技術をリリースしました。この技術は、Fluxモデルにおける人物の肌質の問題を解決し、AI生成画像のリアルさを向上させることを目的としています。この技術では、「意味的相対的好み最適化」戦略を導入し、Direct-Align戦略を採用して生成軌跡を最適化することで、画像品質とトレーニング効率を大幅に向上させました。

image.png

【AiBase要約:】

🧪 「意味的相対的好み最適化」戦略を導入し、正例と負例の語彙で信号を誘導して報酬モデルのバイアスを調整。

📈 Direct-Align戦略を採用し、制御可能なノイズを注入し、それを参照アンカーとして画像再構築に利用し、再構築誤差を大幅に低下。

⚡ SRPO技術は非常に高いトレーニング効率を持ち、10分で既存の方法を超えることができ、リアルさと芸術的評価点数が3倍以上向上。

詳細リンク:https://tencent.github.io/srpo-project-page/

3、IBMがGranite-Docling-258Mをリリース:オープンソースの企業向けドキュメントAIモデル

IBMがリリースしたGranite-Docling-258Mは、エンドツーエンドのドキュメント変換に特化したオープンソースのビジュアル言語モデルです。ドキュメントのレイアウト情報を保持し、表やコード、式などの要素を抽出し、構造化された機械可読形式で出力することができます。従来のOCR技術よりも顕著な改善を実現しています。

image.png

【AiBase要約:】

🌟 新モデルGranite-Docling-258Mは、ドキュメント変換精度の向上とレイアウト情報の保持を目指しています。

🔧 先進的な技術アーキテクチャを採用しており、前バージョンSmolDoclingよりも多くの領域で優れた性能を発揮しています。

🌍 複数言語のサポートを追加し、モデルの応用範囲と柔軟性を強化しています。

詳細リンク:https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00

4、Metaが初のスクリーン付きAIメガネRay-Banを発表:手に持つスマートアシスタント

Metaは初のスクリーン付きAIメガネ「Ray-Ban」を発表しました。これは、より使いやすいスマート体験を提供することを目的としており、神経腕帯と組み合わせて正確な操作を行い、モバイルデバイスへの依存をさらに減らすことを目指しています。

image.png

【AiBase要約:】

📱 右側のレンズに内蔵されたディスプレイにより、アプリケーション、アラーム、ナビゲーション情報を表示。

🧠 神経腕帯と併用し、筋電図技術により正確な操作を実現。

🌐 クラウドに接続でき、メガネ上でメタ製品を使用し、ルートやリアルタイム翻訳を確認。

5、DeepSeekの論文がNatureの表紙を飾り、AI大規模モデルが初めて共同審査を通過

DeepSeek R1の研究論文が『Nature』の表紙を飾りました。これは、大規模言語モデルが公式の共同審査を通過した最初の事例であり、AI業界に新しい学術基準を設定しました。このモデルは強化学習によって自律的に進化し、推論能力を向上させ、数学コンテストにおいて優れたパフォーマンスを示しました。

image.png

【AiBase要約:】

🧠 DeepSeek R1は強化学習により自律的な環境で進化し、複雑な推論能力を開発。

📊 AIME2024数学コンテストにおいて、DeepSeek-R1の結果は15.6%から71.0%へと上昇し、OpenAIモデルと同等の水準に達しました。

🛠️ DeepSeekチームは、拒否サンプリングと監督微調整を組み合わせたマルチステージトレーニングフレームワークを採用し、モデルのライティング能力と全体的なパフォーマンスを向上させました。

6、OpenAIがChatGPTウェブ版に「Thinking調整機能」を追加

OpenAIは新たに「Thinking調整機能」をリリースし、ユーザーがGPT-5モデルの思考時間を必要に応じて選択できるようにし、返答速度と知能レベルのバランスを取ることができます。また、OpenAIは子供向けChatGPTの開発にも積極的に取り組んでおり、未成年者の安全確保に努めています。

image.png

【AiBase要約:】

🌟 新機能リリース:ChatGPTウェブ版に思考時間調節機能を追加し、ユーザー体験を向上。

🛠️ モード選択:標準、拡張、軽量、重度のモードを選択可能で、異なるコミュニケーションニーズに対応。

👶 子供向けChatGPT開発中:OpenAIは子供向けChatGPTの開発を行っており、未成年者が使用する際の安全性を確保。

7、抖音に「AI求真」機能が登場:うわさを識別し、真実を見つけるお手伝い!

抖音は「AI求真」機能をリリースし、ユーザーがうわさを識別し、真実を見つけることを支援し、情報の透明性とユーザー保護能力を高めます。

image.png

【AiBase要約:】

🧠 AIによる「求真」機能が登場し、ユーザーが誤解を含む情報や明確化が必要な情報を識別。

🔍 リンクをクリックして「求真カート」ページにジャンプし、詳細情報を取得。

📢 ライバー治理大モデルと辟谣チームを通じて情報の透明性を向上。

8、通義DeepResearchがリリース!完全オープンソースAIモデルで研究をより簡単にする

通義DeepResearchチームがリリースした完全オープンソースAIモデルは、多数の権威あるベンチマークテストで優れた性能を発揮し、多くの国際的な有名モデルを上回る性能を示し、オープンな形でAI研究の発展を促進しています。

image.png

【AiBase要約:】

🧠 通義DeepResearchチームが完全オープンソースAIモデルをリリースし、AIが「会話できる」から「研究ができる」へと進化。

🚀 多くの権威あるベンチマークテストで先進的な成績を収め、モデル性能が多くの国際的な有名モデルを上回っています。

🌐 モデル、フレームワーク、およびソリューションは完全にオープンソースで、グローバルなテクノロジーコミュニティにオープンコラボレーションのモデルを提供しています。