【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求する毎日ガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、アリババがマルチモーダル推論モデルQVQ-72Bを発表!視覚と言語能力が向上

アリババが最近発表したQVQ-72Bマルチモーダル推論モデルは、言語と視覚能力において顕著な向上を実現し、複雑な推論と分析タスクを処理できます。特に、多段階推論と数学的推論において優れた性能を発揮します。このモデルの登場は、アリババによるマルチモーダルAI分野における大きな飛躍を意味し、複雑な問題解決のための新しいツールとアイデアを提供し、各業界のインテリジェント化アップグレードを促進します。

image.png

【AiBase要約:】

🧠 QVQ-72Bモデルは強力な言語と視覚能力を融合し、複雑な推論タスクを処理できます。

🔍 物理と数学の推論において、このモデルは多段階推論により精度を大幅に向上させ、エラーを削減しました。

📊 QVQ-72Bは技術レポートとグラフの分析において、効率的な情報抽出能力を備え、専門家に強力なサポートを提供します。

詳細リンク:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

2、3社の人工知能ロボット会社への投資後、OpenAIは人型ロボットの独自開発を目指す

OpenAIは2021年にロボット部門を閉鎖したものの、現在人型ロボットの独自開発を積極的に検討しています。最近、同社は3社の人工知能ロボット会社への投資を通じて、ロボット分野への投資を大幅に拡大しました。同社の主力モデルO3は、AGIテストで初めて人間の能力を上回り、実体ロボットへの進出を技術的に支えています。しかし、この競争の激しい市場への参入には、利益相反やハードウェア開発の遅れなどの課題に直面する可能性があります。

【AiBase要約:】

🤝 OpenAIは3社の人工知能ロボット会社に投資し、ロボット分野への積極的な展開を進めています。

📈 主力モデルO3はAGIテストで人間の能力を上回り、技術的な優位性を示しています。

⚠️ 市場競争とハードウェア開発の課題に直面しており、迅速な改善が必要です。

3、QQミュージック14.0版がリリース、初のAI大規模モデル音響効果とインテリジェントな音楽再生音響効果を提供

QQミュージック14.0版のリリースは、特にAI大規模モデル音響効果の導入により、音楽体験の新たな高みを示しています。この革新的な技術は、オーディオ特性を分析することで、ユーザーにパーソナライズされた聴覚体験を提供し、特に3Dサラウンドサウンドにおいて優れた性能を発揮します。さらに、伴奏機能のアップグレードにより、ユーザーは自分のニーズに合わせて再生速度と音程を調整できるようになり、音楽のインタラクティブな楽しさをさらに高めています。

image.png

【AiBase要約:】

🎧 新しく導入された大規模モデル音響効果は、AI技術によりパーソナライズされた聴覚体験を提供し、音楽の空間感と奥行き感を向上させます。

🎤 伴奏機能がアップグレードされ、ユーザーは伴奏モード、再生速度、音程を自由に調整して、様々な歌唱ニーズに対応できます。

🎨 多様なパーソナライズ設定機能により、ユーザーは様々なスタイルを選択して、パーソナライズされた音楽体験を楽しむことができます。

4、iFLYTEK星火ブラウザープラグインがアップデート、翻訳要約、継続質問などのAI機能を追加

iFLYTEKオープンソースプラットフォームは最近、その星火ブラウザープラグインを大幅にアップデートし、ユーザーのブラウジング体験と作業効率を大幅に向上させました。新機能には、多言語対応のグローバル翻訳、強化されたWebページ要約機能、「継続質問」機能が含まれており、ユーザーはより深く議論し、より高品質な回答を得ることができます。さらに、プラグインはワンクリック朗読機能を提供し、ユーザーの外国語の口語能力向上を支援します。

image.png

【AiBase要約:】

🌐 新しい「継続質問」機能により、ユーザーはより深く議論し、より高品質な回答を得ることができます。

📚 ウェブページ全体を12言語で翻訳する機能が実装され、言語の壁を取り払い、読書体験が向上します。

🎤 ワンクリック朗読機能により、ユーザーの外国語の口語能力が向上し、学習効果が向上します。

5、バイトダンスがMidscene.jsをオープンソース化:AI駆動のE2Eテストフレームワークにブレークスルー

人工知能技術の急速な発展に伴い、E2Eテスト分野は革新の革命を経験しています。バイトダンスのweb-infraチームが発表したMidscene.jsは、マルチモーダル大規模言語モデルと組み合わせることで、ユーザーインターフェーステストのプロセスを大幅に簡素化します。ユーザーはコードを記述する必要がなく、自然言語を使用してWebページと対話することで、テスト効率を向上させます。

【AiBase要約:】

🛠️ Midscene.jsは自然言語を使用してWebページと対話することで、E2Eテストのプロセスを簡素化します。

⏱️ ShortestツールはAIを使用してテストケースを自動生成し、反復作業時間を削減します。

📈 AI技術の成熟により、基本的なE2Eテストシナリオの自動化レベルが大幅に向上しました。

詳細リンク:https://github.com/web-infra-dev/midscene

6、DeepMindプロジェクトMegaSaM:通常のビデオを入力するだけでカメラの視点と被写界深度を予測可能に

MegaSaMシステムの発表は、コンピュータビジョン分野における大きなブレークスルーを意味します。このシステムは、通常のダイナミックビデオからカメラパラメータと深度マップを迅速かつ正確に推定でき、従来技術のダイナミックシーンにおける限界を克服します。深度視覚SLAMフレームワークの革新的な修正により、MegaSaMは複雑な環境下でのリアルタイム処理能力が大幅に向上し、実験結果は、精度と効率の両方において従来技術を上回っていることを示しています。

【AiBase要約:】

🌟 MegaSaMシステムは、通常のダイナミックビデオからカメラパラメータと深度マップを迅速かつ正確に推定できます。

⚙️ この技術は、従来の方法がダイナミックシーンで抱えていた問題を克服し、複雑な環境でのリアルタイム処理に対応します。

📈 実験結果は、MegaSaMが精度と実行効率の両方において従来技術を上回っていることを示しています。

詳細リンク:https://mega-sam.github.io/#demo

7、バイトダンスTikTokアルゴリズム責任者陳志杰氏が退社へ、AIコーディング分野で起業へ

バイトダンスのTikTokアルゴリズム責任者である陳志杰氏が退社し、AIコーディング分野での起業に専念する予定です。2022年にバイトダンスに入社して以来、TikTokのレコメンドアルゴリズムとデータサイエンスチームを率いており、以前は百度で約9年間の技術経験を積みました。AIコーディング市場は急速に発展しており、2032年には295億ドルを超えると予想されており、多くの投資家の注目を集めています。

【AiBase要約:】

🌟 陳志杰氏はバイトダンスを退社し、AIコーディング分野での起業に専念します。

🚀 AIコーディング市場は将来性があり、2032年には295億ドルを超えると予想されています。

💡 中国市場の投資家はAIコーディングに注目しており、多くのプロジェクトが相次いで登場しています。

8、Fireworks AIがドキュメント解析ツールを発表!AIで複雑なファイルも簡単に理解

Fireworks AIは最近、「Document Inlining」機能を発表し、非構造化ドキュメントの処理における課題解決を目指しています。この機能は、PDF、スクリーンショット、画像などのドキュメントを、大規模言語モデルが理解できる構造化テキストに変換することで、AIによるドキュメント処理の効率と精度を大幅に向上させます。その核心は強力な複合AIシステムであり、様々なコンテンツを自動的に認識および解析し、操作が簡単でOpenAI APIと互換性があり、ユーザーは追加の学習コストを必要としません。

image.png

【AiBase要約:】

📄 高品質な出力: Document Inliningが提供するテキストの品質は、従来のテキスト型LLM出力よりも優れており、特に推論と生成タスクにおいて優れた性能を発揮します。

📊 多様なドキュメント形式に対応: このツールはPDF、画像など様々な形式に対応し、複雑なドキュメントから重要な情報を正確に抽出できます。

🔍 複雑なドキュメントの解析能力: 表やグラフを含む複雑なドキュメントを解析し、LLMが理解できるテキストに変換できます。

詳細リンク:https://fireworks.ai/blog/document-inlining-launch#quality-evaluation

9、やはり最強!OpenAIの新モデルo3がARC-AGIベンチマークテストで記録的スコアを達成

OpenAIが最近発表したモデルo3は、ARC-AGIベンチマークテストで顕著な成果を収め、標準計算条件下では75.7%、高計算バージョンでは87.5%というスコアを達成しました。この成果はAI研究界を驚かせましたが、専門家はo3はまだ汎用人工知能(AGI)の基準に達していないと指摘しています。o3の計算コストは高く、各謎解きには17~20ドルの費用がかかり、一部の簡単なタスクでは性能が劣ります。

image.png

【AiBase要約:】

🌟 o3はARC-AGIベンチマークテストで75.7%の高得点を獲得し、従来のモデルを凌駕する性能を示しました。

💰 o3は各謎解きのコストが17~20ドルと高く、計算量が膨大です。

🚫 o3は優れた性能を示していますが、専門家はAGIの基準にはまだ達していないと強調しています。

10、タイプミスでもGPT-4o、Claudeを「脱獄」可能に:AIチャットボットの脆弱性を解明!

最近の研究は、高度なAIチャットボットが単純なスペルミスに対して脆弱であることを明らかにしました。「Best-of-N(BoN)脱獄」と呼ばれるアルゴリズムにより、研究者らは、意図的にスペルミスを加えることで、これらのモデルが安全対策を無視し、本来拒否すべきコンテンツを生成できることを発見しました。この発見は、AIと人間の価値観の整合性の難しさを浮き彫りにするだけでなく、高度なAIシステムでさえ欺瞞を受けやすいことを示しています。

【AiBase要約:】

🔍 研究によると、スペルミスなどの簡単なテクニックで、AIチャットボットを簡単に「脱獄」できることがわかりました。

🧠 BoN脱獄技術は、様々なAIモデルで52%、中には89%もの成功率を達成しています。

🎨 この技術はオーディオと画像入力でも有効であり、AIの脆弱性を示しています。

11、気まずい!GoogleがGemini AIの改良にClaudeモデルを用いた比較テストを行っていたことが発覚

最近、GoogleのGemini人工知能プロジェクトが、Anthropic社のClaudeモデルとの比較テストを通じて、自社の性能向上を図っていることが明らかになりました。Geminiの改良を担当する請負業者は、両モデルの出力を評価しており、比較基準には真実性と安全性などが含まれています。GoogleはAnthropicの主要投資家の1社ですが、Googleの広報担当者は、GeminiをClaudeモデルでトレーニングしていないと述べています。

【AiBase要約:】

🌟 GeminiはClaudeとの比較テストを通じて、自社のAIモデルの性能向上を図っています。

🔍 請負業者が評価を行い、両者の回答の比較には真実性や安全性など複数の基準が用いられています。

🚫 Anthropicは、許可なくClaudeを競合モデルのトレーニングに使用することを禁止しています。

12、研究で、OpenAIのo1-previewが複雑な医療ケースの診断で医師を上回ることが判明

新しい研究によると、OpenAIのo1-preview人工知能システムは、複雑な医療ケースの診断において人間の医師を上回り、88.6%の精度を達成しました。このシステムは医療推論においても優れており、80件のケースのうち78件で満点を獲得しました。o1-previewはいくつかの点で優れた性能を示していますが、実用化においては高コストや非現実的なテスト提案などの問題に直面しています。

【AiBase要約:】

🌟 o1-previewは診断精度において医師を上回り、88.6%の精度を達成しました。

🧠 医療推論において、o1-previewは80件のケースのうち78件で満点を獲得し、医師の成績を大きく上回りました。

💰 優れた性能を示していますが、o1-previewは実用化においては高コストや非現実的なテスト提案などの問題を解決する必要があります。

詳細リンク:https://arxiv.org/abs/2412.10849