【AI日報】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、AI分野のホットなニュースをお届けし、開発者をフォーカスすることで、技術トレンドの把握や革新的なAI製品の応用について理解を深めるお手伝いをします。
最新のAI製品はこちらでご確認ください:https://top.aibase.com/
1、OpenAIがSoraを正式リリース、ChatGPT Proユーザーは20秒までの動画を無制限に生成可能に
OpenAIは「ship-mas」シリーズイベントで、Sora Turbo動画生成AIを発表しました。1080p、最大20秒の動画生成に対応し、テキスト、画像、動画から創作が可能で、様々なスタイルや編集機能を備えています。クリエイティブな表現とコンテンツの安全性を重視しており、他のクリエイターの動画も閲覧できます。
【AiBase要約:】
🌟 Sora Turboは最大1080p解像度の20秒動画を生成できます。
🎨 多様なツールでクリエイティブな動画制作が可能です。
🔒 生成された動画には全てウォーターマークとC2PAメタデータが付加され、安全性が確保されています。
詳細リンク:https://sora.com/
2、智譜AIが無料のマルチモーダルモデルGLM-4V-Flashをリリース:画像処理の精度向上
北京智譜華章科技有限公司は、初の無料マルチモーダルAPIであるGLM-4V-Flashを発表しました。画像処理の精度向上と開発者の利用障壁の低減を目指しています。このモデルは複数の言語に対応し、画像説明生成やビジュアルクエスチョン・アンサーなど高度な画像処理機能を備えており、特定業界への精密なソリューションを提供できます。
【AiBase要約:】
🌐 GLM-4V-Flashは初の無料マルチモーダルAPIで、26言語に対応し、開発のハードルを下げます。
📊 画像説明生成、分類、視覚推論などの高度な機能を備え、様々な業界で活用できます。
🚀 ソーシャルメディア、教育、美容など、既に多くの分野で顕著な効果を発揮しています。
詳細リンク:https://www.bigmodel.cn/console/trialcenter
3、テンセントクラウドがAIコードアシスタントをリリース、混元大モデルをベースに開発
テンセントクラウドが発表したAIコードアシスタントは、コードの予測と提案を通じてプログラマーの開発効率向上を目指しています。混元大モデルを活用し、コードのコンテキストを深く理解することで、従来のキーワードマッチング方式を凌駕する精度の高いコード補完提案を提供します。プログラマーのコーディングスタイルに適応するだけでなく、正規表現の生成、フロントエンドページの迅速な生成、複雑なコードの明確な解釈など、多くの重要な場面で強力なコーディング支援能力を発揮します。
【AiBase要約:】
⚙️ AIコードアシスタントはコードのコンテキストを深く理解し、精度の高いコード補完提案を提供することで、開発効率を大幅に向上させます。
📈 プログラマーのコーディングスタイルを学習し、カスタマイズされたコード補完を提供することで、個々の習慣に合わせます。
🔍 混元大モデルにより、正規表現の生成や新しいインターフェース仕様への迅速な対応など、様々な場面で強力な能力を発揮します。
4、可灵AI API V1.5モデルに標準stdモード追加、V1.0モデルにモーションブラシ機能追加
北京快手科技有限公司は、可灵AIのAPI V1.5モデルに標準モード、V1.0モデルに「モーションブラシ」機能を追加しました。これらのアップデートはユーザーエクスペリエンスの向上、そして芸術創作の柔軟性と効率性の強化を目指しています。V1.5モデルは優れた効果と高速な処理速度で高コスパな選択肢を提供し、V1.0モデルの新機能では、画像内の人物や物体に動きを指定でき、より正確なモーションコントロールと生き生きとした表現を実現します。
【AiBase要約:】
✨ V1.5モデルの標準モードは優れた効果と高速な処理速度を提供し、ユーザーエクスペリエンスを向上させます。
🖌️ V1.0モデルに追加された「モーションブラシ」機能により、動きを指定して正確なコントロールが可能になります。
🌟 新機能により可灵AIの機能が充実し、ビジュアルアート創作に革新的な可能性をもたらします。
5、書生・万象マルチモーダル大モデルInternVL2.5がオープンソース化、GPT-4oに匹敵する性能
上海AI研究所が発表した書生・万象InternVL2.5モデルは、マルチモーダル理解ベンチマークで70%を超える精度を達成し、GPT-4oやClaude-3.5-Sonnetなどの商用モデルに匹敵する初のオープンソースモデルとなりました。このモデルは、チェイン・オブ・ソーティング推論技術により性能が向上し、様々な分野で強力なテスト時間拡張性とマルチディシプリナリー推論能力を示しています。
【AiBase要約:】
🚀 InternVL2.5モデルはマルチモーダル理解ベンチマークで70%を超える精度を達成し、優れた性能を示しています。
📈 チェイン・オブ・ソーティング推論技術により、3.7%の性能向上を実現し、強力な拡張性を示しています。
🌐 オープンソースであるため、研究者や開発者は自由にアクセスして使用でき、マルチモーダルAI技術の発展を促進します。
詳細リンク:https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942
6、Swift VenturesがAI企業指数を発表、人工知能投資基準を明確化
Swift Venturesは、AI技術への投資を行っている上場企業を投資家が特定できるようにするための、新しいAI企業指数を発表しました。数千件のデータを分析した結果、企業が財務報告書でAIを頻繁に言及しているにもかかわらず、実際に大規模な投資を行っている企業はごくわずかであることが判明しました。現在追跡している90社の企業は、AI研究と人材密度において優れた実績を上げており、年成長率は市場平均をはるかに上回っています。
【AiBase要約:】
📊 この指数は、約90社の企業を追跡し、AI研究投資、人材密度、AI収入に基づいて評価を行います。
💡 AI研究に投資している企業の平均粗利益は、投資していない企業の2倍であり、研究と収益力の正の相関関係を示しています。
🚀 一部の目立たない企業がAI分野で優れた成果を上げており、年成長率は50%を超えています。これは、AIへの転換が大手テクノロジー企業を超えていることを示しています。
7、量子計算の驚異的な飛躍!GoogleのWillowチップが138億年の計算を5分で完了、OpenAIも驚愕
GoogleのWillow量子チップは量子計算分野で画期的なブレークスルーを達成し、従来のコンピューターで10^25年かかる計算タスクをわずか5分に短縮することに成功しました。これは量子技術の巨大な可能性を示しています。精巧なエンジニアリング設計により、Willowは量子ビット数を増やすと同時に計算誤差を大幅に削減し、量子計算の進歩を促進しました。
【AiBase要約:】
⚡ Willowチップは量子計算において閾値以下の誤差制御を実現し、エラー率を大幅に削減しました。
⏱️ 計算速度は驚異的で、10^25年のタスクをわずか5分で完了し、量子計算の巨大な可能性を示しています。
🔒 Willowの進歩は、特にビットコインなどの暗号通貨に対する潜在的な脅威として、暗号セキュリティへの懸念を引き起こしています。
8、オタクの福音!VRロールプレイングAIが登場、南洋理工大学が「人物創造」で新突破、歌って踊って会話もできる!
シンガポール南洋理工大学(NTU)の研究チームは、SOLAMIと呼ばれるAI技術を発表しました。これは、生き生きとした3D仮想キャラクターを作成し、リアルタイムインタラクション、音声理解、動作応答をサポートする技術です。この技術は深層学習を利用して、ユーザーの音声と動作を仮想キャラクターが理解できる言語に変換し、自然でスムーズなインタラクション体験を提供します。SOLAMIはVRインターフェースも備えており、ユーザーはVRデバイスを通じて仮想キャラクターと直接対話できます。
【AiBase要約:】
🎮 SOLAMIはエンドツーエンドのソーシャルビジュアル言語動作モデリングフレームワークであり、ユーザーと仮想キャラクター間の自然なインタラクションを実現します。
📊 SynMSI合成データセットは、トレーニングに豊富な会話と動作データを提供し、データ不足の問題を解決します。
🌐 SOLAMIの没入型VRインターフェースにより、ユーザーは仮想キャラクターと没入感のあるインタラクションが可能になり、ソーシャルエクスペリエンスが向上します。
詳細リンク:https://solami-ai.github.io/
9、Xが正式発表、新しいAI画像ジェネレーターAuroraが今週中に全ユーザー向けにリリース
最近、ソーシャルネットワークX(旧Twitter)は新しい画像ジェネレーターAuroraを発表しました。数十億個のサンプルでトレーニングされており、高品質な画像生成能力を備えています。当初は撤回されましたが、現在は復活し、1週間以内に全ユーザーへの展開を予定しています。Auroraは現実世界の視覚的なディテールを正確にレンダリングできますが、テストでは、生成された画像に不自然な融合やディテールの欠落が見られることがありました。
【AiBase要約:】
✨ AuroraはxAIが開発した新しい画像ジェネレーターで、写真レベルのレンダリング能力を備えています。
🌍 現在一部の国でリリースされており、1週間以内に全ユーザーへの展開が予定されています。
🔍 テストでは、Auroraが生成した画像に不自然な融合や人物のディテールの欠落が見られることがありました。
詳細リンク:https://x.ai/blog/grok-image-generation-release
10、RedditがAI Q&A機能をリリースするも、ユーザーの反応は冷ややか!
Redditは最近、「Reddit Answers」という新しい機能を発表しました。これはAI駆動のQ&Aによってユーザーの検索体験を向上させることを目的としています。この機能はプラットフォーム内の投稿やコメントに基づいて回答を提供できますが、ユーザーのフィードバックは芳しくなく、多くの人が検索機能の改善を優先すべきだと考えています。この機能は現在、米国の限られたユーザーでのみテストされており、Androidプラットフォームではまだリリースされていません。
【AiBase要約:】
🔍 新機能「Reddit Answers」は、米国の限られたユーザーを対象にテストが開始され、検索体験の向上を目指しています。
🤖 この機能はRedditプラットフォーム内の投稿やコメントを利用し、AI駆動のQ&Aサービスを提供します。
😟 ユーザーの反応は低調で、多くの人が検索機能の改善を優先すべきだと不満を述べています。
11、テスラ陶琳氏:自動運転は純粋なビジョン路線を堅持
テスラの副社長である陶琳氏は、自動運転技術において純粋なビジョン路線を堅持する決意を改めて表明しました。カメラとビジョンニューラルネットワークの組み合わせだけが、人間の運転習慣をより適切にシミュレートし、より安全でインテリジェントな完全自動運転を実現できると強調しました。テスラのAI4チップは、現在販売されているすべてのモデルに搭載されており、演算能力が大幅に向上しており、ハードウェア面では完全自動運転の準備が整っていることを示しています。
【AiBase要約:】
🔍 テスラは純粋なビジョン技術による完全自動運転の実現を堅持し、これが最も安全でインテリジェントなソリューションであると考えています。
💡 自動運転技術はエンドツーエンドの大規模モデルを採用し、光子入力から意思決定出力までの全プロセスを実現しています。
📈 販売されているすべてのモデルに最新のAI4チップを搭載しており、演算能力が5倍に向上し、完全自動運転の実現に向けた基盤を築いています。
12、驚異的な回復!Stability AIの新経営陣が6ヶ月で無借金経営、3桁の事業成長を実現
Stability AIは、新CEOのプレム・アカラジュ氏のリーダーシップの下、6ヶ月間の努力を経て、事業を3桁成長させ、すべての負債を解消することに成功しました。アカラジュ氏は、同社のバランスシートの健全性を強調し、APIとライセンスサービスの急速な発展に注力しています。新経営陣の誕生は、以前は撤退していた投資家の復帰をもたらし、同社の将来性向上の兆しを示しています。
【AiBase要約:】
💼 Stability AIの新CEOプレム・アカラジュ氏は、同社の事業が3桁成長し、無借金経営になったと発表しました。
📈 新経営陣は6ヶ月で回復を遂げ、以前は撤退していた投資家の復帰を促しました。
🎥 有名監督のジェームズ・キャメロン氏がStability AIの取締役会に加わり、業界の信頼回復を示しています。
13、智源が非アノテーション動画学習用3D生成モデルSee3Dをオープンソース化
北京智源人工知能研究院は、非アノテーションインターネット動画を利用して3D生成を行うSee3Dモデルを発表しました。このモデルは、視覚条件技術を通じて、カメラ方向が制御可能で整合性のある多視点画像を生成し、従来のカメラアノテーションの必要性を排除します。優れたデータ拡張性と適用性を備えています。See3Dはオープンソース化されており、様々な3D創作アプリケーションに対応しています。
【AiBase要約:】
🌟 See3Dは大規模な非アノテーション動画を用いて3D学習を行い、データ収集コストを削減します。