AIデイリーニュース：Open-Sora Plan v1.2リリース；Mistral Large2突然オープンソース化；Tencent Zhiyingがインテリジェントキャンバス機能を発表

【AI日報】へようこそ！ここは、人工知能の世界を探求するためのあなたの毎日のガイドです。毎日、AI分野のホットなニュースをお届けし、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用に関する情報を提供します。

最新のAI製品詳細はこちら:https://top.aibase.com/

1、衝撃！Open-Sora Plan v1.2リリース、解像度と推論速度が大幅向上

Open-Sora Plan v1.2バージョンは、新しい3D全注意機構を採用し、物理世界に対する理解能力を向上させました。更新により、新しい3D全注意機構、テキストからビデオ生成機能のアップグレード、解像度と一貫性の向上、空間と時間の完璧な融合、推論速度の大幅な向上が実現しました。Open-Soraチームはコード、データ、モデルをオープンソース化し、誰もがビデオ制作の達人になれるよう努めています。

【AiBase要約:】
🌟 新しい3D全注意機構により、AIの物理世界への理解が飛躍的に向上し、360度死角のない立体的な世界を理解できます。
🎥 テキストからビデオ生成機能がアップグレードされ、テキストを入力するだけで、生き生きとしたビデオ映像を作成できます。
⏱️ 空間と時間の完璧な融合により、ビデオの空間表現と時間的なスムーズさが大幅に向上しました。
詳細はこちら:https://top.aibase.com/tool/open-sora-plan-v1-2

2、巨匠たちの戦い！Mistral Large2が突然オープンソース化:1230億パラメータ、Llama3.1に匹敵

Mistral AIは、フラッグシップモデルMistral Large2を発表しました。1230億個のパラメータと超大型の128kコンテキストウィンドウを備え、優れた性能とコスト効率を実現しています。ユーザーはLa Plateformeを通じて新しいモデルにアクセスし、クラウドサービスプラットフォームで広く利用できます。

【AiBase要約:】
🌟 Mistral Large2は128kコンテキストウィンドウを備え、最大10種類の言語と80種類以上のプログラミング言語をサポートしています。
📈 MMLUベンチマークテストで84.0％の精度を達成し、優れた性能とコスト効率を実現しています。
💻 ユーザーはLa Plateformeを通じて新しいモデルにアクセスし、クラウドサービスプラットフォームで広く利用できます。
詳細はこちら:https://console.mistral.ai/

3、騰訊智影PC版が「スマートキャンバス」機能をリリース

騰訊智影PC版は最近、「スマートキャンバス」という新しい機能をリリースしました。ユーザーに様々な実用的な画像編集機能を提供し、AIペイント技術と組み合わせることで、作画をより簡単にします。この機能は、AIペイント画像の再創作、切り抜き、削除、拡大などの編集操作が必要なユーザーに特に適しています。ユーザーは現在、智影ホームページにログインして、これらの新しい機能を試すことができます。

【AiBase要約:】
🎨 スマートキャンバスはAIペイント技術と組み合わせて、様々な実用的な画像編集機能を提供し、ユーザーは簡単に再創作、切り抜き、削除、拡大などの操作を行うことができます。
🖌️ ユーザーはキャンバスサイズを選択して画像をアップロードし、豊富な素材ステッカーやツールを使用して編集したり、AIで創作したりできます。
🔍 スマートキャンバスは、トリミング、切り抜き、削除、拡大、部分的な再描画、高解像度ロスレスなど、様々な創造性と専門的なニーズに対応する画像AI調整機能を提供します。

4、金山WPS OfficeがAIアシストライティング機能をリリース

金山オフィスは最近、WPS AIのAIアシストライティング機能を発表しました。これは、ユーザーのライティング効率と品質を向上させることを目的としています。ユーザーはWPS Officeインターフェースからこの機能を有効にし、スマートな提案と継続的なライティングサービスを利用して、簡単にインスピレーションを表現できます。AIアシストライティングは、多様なコンテンツ生成と中国の詩詞の引用をサポートし、ライティングの一貫性を強化します。WPS AI 2.0のアップグレードにより、人工知能のオフィス分野への応用がさらに推進されました。

【AiBase要約:】
✨ ライティング効率と品質を向上させ、ユーザーのライティングをスマートにアシストします。
📚 多様なシーンと役割が、様々なユーザーのライティングニーズに対応します。
💡 スマートな提案、継続的なライティングサービス、多様なコンテンツ生成を提供し、中国の詩詞の引用をサポートします。

5、Stable Video4Dが登場、ワンクリックであなたのビデオをパノラマ大作に変身！

Stable Video4Dは、Stability AIが発表した画期的なビデオ処理ツールで、通常のビデオをあらゆる角度から楽しめるパノラマ大作に変身させることができます。高速で多視点ビデオを生成し、画質の一貫性を維持することで、ゲーム開発、ビデオ編集、VR制作分野に影響を与えます。将来は視聴方法を変え、全く新しいインタラクティブな体験をもたらす可能性があります。

【AiBase要約:】
🎥 Stable Video4Dは、通常のビデオをパノラマ大作に変身させ、多角的な詳細を表示します。
🔮 高速で多視点ビデオを生成し、画質の一貫性を維持することで、幅広い応用が期待できます。
🌌 将来は視聴方法を変え、全く新しいインタラクティブな体験をもたらす可能性があります。
詳細はこちら:https://huggingface.co/stabilityai/sv4d

6、AI音楽生成ツールUdioがV1.5モデルの音質を大幅に向上させてアップデート

昨日、AI音楽生成ツールUdioは、注目すべきアップデートを発表しました。その中でもV1.5モデルの音質が大幅に向上し、音楽制作者によりクリアで豊かな聴覚体験を提供します。新しい機能には、キーコントロール、多言語サポートなどが含まれており、ユーザー層の拡大につながります。製品機能の強化には、専用の創作ページ、音楽片段のダウンロードなどが含まれ、よりパーソナルで効率的な創作環境を提供します。

【AiBase要約:】
✨ V1.5モデルの音質が大幅に向上し、よりクリアで豊かな聴覚体験を提供します。
🎵 新機能には、キーコントロールと多言語サポートが含まれており、制作者のニーズに対応します。
🔧 製品機能の強化には、専用の創作ページ、音楽片段のダウンロードなどが含まれ、よりパーソナルで効率的な創作環境を提供します。
詳細はこちら:https://top.aibase.com/tool/udio

7、GPT-4oに匹敵！復旦大学が感情を理解する音声モデルSpeechGPT2を発表

SpeechGPT2は、復旦大学研究チームが提案した革新的な大規模言語モデルで、クロスモーダルな音声理解と生成能力を備えています。強力なタスク実行能力を示していますが、ノイズ耐性と音質の安定性には課題が残っています。チームは今後、技術レポート、コード、モデルウェイトをオープンソース化し、技術の更なる発展と改善を促進する予定です。

【AiBase要約:】
🔑 SpeechGPT2は、クロスモーダルな音声理解と生成能力を備えた新しい大規模言語モデルです。
🔑 SpeechGPT2は、モーダル適応事前学習、クロスモーダル指示微調整、モーダルチェーン指示微調整を含む3段階のトレーニング戦略を採用しています。
🔑 SpeechGPT2は強力な能力を示しており、テキストタスク、クロスモーダルタスク、口語会話タスクで優れたパフォーマンスを発揮しています。
詳細はこちら:https://top.aibase.com/tool/speechgpt2

8、Redditが「有料ウォール」を開始、検索エンジンとAIロボットによるコンテンツの無断取得を阻止

Redditは最近、注目すべき動きとして、主要な検索エンジンとAIロボットによるコンテンツの取得を制限し、アクセスには有料化することを開始しました。この措置により、Google以外の検索エンジンは最新のRedditコンテンツに容易にアクセスできなくなり、幅広い注目と議論を呼び起こしています。

【AiBase要約:】
🌐 有料ウォール開始：Redditは検索エンジンとAIロボットによるコンテンツへのアクセスを制限し、アクセスには料金が必要となりました。
🤖 Google独占リソース：Googleのみが「site:reddit.com」を使用して最新の検索結果を取得でき、他の検索エンジンは除外されています。
💰 データマネタイゼーション戦略：Redditはデータ保護を強化し、API料金を引き上げ、投資家を惹きつけるための新たな収益源を模索しています。

9、Nvidia AIがChatQA2を発表、長文理解とRAG能力がGPT-4に匹敵

人工知能の急速な発展において、長文コンテキストの理解と検索拡張生成（RAG）の能力は非常に重要になっています。Nvidia AIの最新研究であるChatQA2モデルは、この課題に対処するために開発されました。ChatQA2は、コンテキストウィンドウの拡張と3段階の指示調整プロセスの実装により、GPT-4-Turboに匹敵する長文理解とRAG性能を実現しました。

【AiBase要約:】
⚙️ ChatQA2はコンテキストウィンドウを128Kトークンに拡張することで、指示遵守能力と長文理解を大幅に向上させました。
🔍 ChatQA2はInfiniteBench評価でGPT-4-Turboを上回り、複数のタスクで包括的な能力を示しました。
💡 ChatQA2はRAGプロセスにおける重要な問題を解決し、検索の精度と効率を向上させました。
詳細はこちら:https://arxiv.org/abs/2407.14482

10、百川智能が50億元Aラウンド資金調達を完了、評価額は200億元に

百川智能は最近、Aラウンド資金調達を完了し、調達総額は50億元人民元に達し、評価額は200億元に上昇しました。これは、大規模モデルのスタートアップ企業が重要な資本支援を獲得したことを示しており、業界の発展力と可能性を示しています。

【AiBase要約:】
🚀 大規模モデルスタートアップの百川智能が50億元Aラウンド資金調達を完了し、評価額は200億元に達し、国有資本系の産業投資ファンドが参加しました。
💡 百川智能は医療AI分野で優れた実績を上げており、Baichuan3モデルはGPT-4を凌駕し、AI医療のL0～L5段階の発展路線を提案しています。
💰 大規模モデル業界の資金調達状況の変化、国有資本系のファンドが重要な資金源となり、同社はスーパーモデルとスーパーアプリケーションの両輪駆動戦略を採用しています。

11、Nvidiaが小型言語モデルMinitronを発表

Nvidiaが最近発表した小型言語モデルMinitronは、人工知能分野で大きな話題となっています。このモデルシリーズは、トレーニング速度が40倍向上し、剪定と知識蒸留技術によりトレーニングコストを大幅に削減し、Huggingfaceでオープンソース化され、AI技術の普及を促進しています。

【AiBase要約:】
📈 トレーニング速度の向上：Minitronモデルのトレーニング速度は従来のモデルより40倍速く、時間と労力を節約できます。
💡 コスト削減：剪定と知識蒸留技術により、トレーニングに必要な計算リソースとデータ量を削減します。
🌍 オープンソース共有：MinitronモデルはHuggingfaceでオープンソース化され、より多くの人がAI技術を入手して使用できるようになりました。
詳細はこちら:https://huggingface.co/collections/nvidia/minitron-669ac727dc9c86e6ab7f0f3e

12、OpenBuddyがLlama3.1-8Bモデルの中国語版をリリース

Metaは最近、新世代のオープンソースモデルシリーズLlama3.1を発表しました。これには405Bパラメータのバージョンが含まれており、その性能はGPT-4などのクローズドソースモデルに匹敵し、一部のベンチマークテストではそれを上回っています。OpenBuddyはLlama3.1-8B-Instructモデルを利用し、少量の中国語データでトレーニングを行い、中国語の質疑応答とクロスリンガルトランスレーション機能を備えたOpenBuddy-Llama3.1-8B-v22.1-131Kを発表しました。

【AiBase要約:】
🚀 Llama3.1-8B-Instructは新世代のオープンソースモデルであり、多言語をサポートし、コンテキストの長さは最大131072トークンに達し、GPT3.5Turboに匹敵する認知と推論能力を示しています。
🔍 OpenBuddy-Llama3.1-8B-v22.1-131Kは、中国語の質疑応答とクロスリンガルトランスレーション機能を備えた新世代のオープンソースクロスリンガルモデルであり、より強力な認知能力を示しています。
💡 OpenBuddyは、8Bと70Bモデルをより大規模にトレーニングして、モデルの中国語知識、長文能力、認知能力を強化し、405Bモデルの微調整の可能性を探求する予定です。
詳細はこちら:https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

13、常識を覆す！AIが自己学習中に9回クラッシュ、オックスフォードとケンブリッジ大学がAIの致命的な弱点発見

AIデイリーニュース：Open-Sora Plan v1.2リリース；Mistral Large2突然オープンソース化；Tencent Zhiyingがインテリジェントキャンバス機能を発表

関連推奨

アップルはオープンAIを正式に提訴し、商業機密の盗難を指控。元幹部および核心的なAIハードウェアプロジェクトに関与

グーグルがマイ広告センターに新しい機能をリリース: オートディスクロージャーによるAI広告情報の生成

MiniMaxが新世代の大規模モデルを発売予定　パラメータ数は2.7兆

マイクロソフトがiPads版Wordの新バージョンをテスト: カピロットAIアシスタントとの深く統合されたドキュメント編集の補助

グーグル写真にAI動画ミキシング機能が登場：Gemini Omniを搭載し、数秒で映画のような編集を実現

AIデイリーニュース：Open-Sora Plan v1.2リリース；Mistral Large2突然オープンソース化；Tencent Zhiyingがインテリジェントキャンバス機能を発表

関連推奨

アップルはオープンAIを正式に提訴し、商業機密の盗難を指控。元幹部および核心的なAIハードウェアプロジェクトに関与

グーグルがマイ広告センターに新しい機能をリリース: オートディスクロージャーによるAI広告情報の生成

MiniMaxが新世代の大規模モデルを発売予定 パラメータ数は2.7兆

マイクロソフトがiPads版Wordの新バージョンをテスト: カピロットAIアシスタントとの深く統合されたドキュメント編集の補助

グーグル写真にAI動画ミキシング機能が登場：Gemini Omniを搭載し、数秒で映画のような編集を実現

MiniMaxが新世代の大規模モデルを発売予定　パラメータ数は2.7兆