【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。
新しいAI製品詳細はこちら:https://top.aibase.com/
1.OpenAIがChatGPTに新しい画像生成機能APIを導入:開発者はAI描画機能を簡単に統合可能に
OpenAIは最近、gpt-image-1画像生成APIを発表しました。開発者はこの高度な技術を様々なアプリケーションに簡単に統合できます。この機能は公開以来、多くのユーザーを引きつけ、7億枚以上の画像が生成されました。gpt-image-1は様々な画像スタイルをサポートするだけでなく、安全ガードレールも内蔵しており、生成されたコンテンツが会社のポリシーに準拠していることを保証します。さらに、合理的な料金体系により、開発者は低コストで高品質の画像を生成できるため、AI画像生成分野における重要な進歩を示しています。
【AiBase要約:】
🌟 OpenAIがgpt-image-1画像生成APIを発表、開発者はアプリケーションに簡単に統合可能。
🖼️ 新機能公開後1週間で7億枚以上の画像が生成され、数百万人の新規ユーザーを獲得。
💰 gpt-image-1の画像生成コストは画像あたり2セントと低価格。
2.Google Geminiの月間アクティブユーザー数が3.5億人を突破、ChatGPTとの差は依然として存在
Googleの人工知能チャットボットGeminiは過去1年間で顕著なユーザー数の増加を実現し、月間アクティブユーザー数は3.5億人に達し、日次アクティブユーザー数も900万人から3500万人に増加しました。しかし、市場をリードするChatGPTの月間アクティブユーザー数6億人と比較すると、Geminiはまだ差があります。GoogleはSamsungとの連携や製品統合を通じてGeminiの急速な成長を促進しており、AIチャットツールに対するユーザーの需要の高まりを示しています。今後、GoogleがどのようにGeminiのユーザーエクスペリエンスと機能をさらに向上させるかが、競合他社との差を縮める鍵となります。
【AiBase要約:】
🌟 Geminiの月間アクティブユーザー数は3.5億人に達し、日次アクティブユーザー数は3500万人に増加。
🤖 ChatGPTの月間アクティブユーザー数は6億人で、依然としてGeminiをリード。
📈 GoogleはSamsungとの連携と製品統合により、Geminiの急速な成長を促進。
3.OpenAI、2029年の収益が1250億ドルに急増すると予測
OpenAIが最近発表した収益予測によると、2029年までに総収益は1250億ドルに達すると予想されており、AIエージェント事業とチャネル収益が主な推進力となります。2023年のOpenAIの収益は37億ドル、週間アクティブユーザー数は5億人を超え、顕著な成長を示しています。同社は今後4年間でキャッシュフローの黒字化、粗利益率の70%近くへの向上を予想しています。これらの予測は投資家の注目を集め、OpenAIの急速な発展を促進すると予想されます。
【AiBase要約:】
🌟 2029年までにOpenAIの収益は1250億ドルに達すると予想され、AIエージェント事業が主要な成長要因。
📈 2023年の収益は37億ドル、週間アクティブユーザー数は5億人を超え、顕著な成長を示す。
💰 今後4年間でキャッシュフローの黒字化、粗利益率の70%近くへの向上を予想。
4.OstrisがFlex.2-previewを発表、8億パラメーターの拡散モデルがComfyUIワークフローを一新
Ostrisチームは、ComfyUIワークフローを最適化することを目的とした、8億パラメーターのテキストから画像への拡散モデルであるFlex.2-previewを発表しました。このモデルは画像生成のコントロール能力に優れており、画像修復や深度制御などの様々な機能をサポートし、Hugging Faceでオープンソース化され、AIアート制作コミュニティの注目を集めています。Flex.2-previewの軽量設計と効率的な推論能力により、創造的なデザインや商業用途に最適なツールとなり、将来のAIアート制作の可能性を示しています。
【AiBase要約:】
🎨 多様な制御をサポート:線、ポーズ、深度制御を内蔵し、生成結果を正確に導き、様々な創作ニーズに対応。
🖼️ 画像修復機能:高度な画像修復をサポートし、ユーザーはマスクを使用してコンテンツの置換や修復を行い、創作の柔軟性を向上。
⚙️ ComfyUI統合:ComfyUI向けに最適化されたモデルで、ノード化されたワークフローをサポートし、複雑なタスクの設定を簡素化。
詳細リンク:https://huggingface.co/ostris/Flex.2-preview
5.NVIDIAがマルチモーダルLLM Describe Anythingを発表:特定の領域を指定して詳細な説明を生成
NVIDIA AIチームが発表したDescribe Anything3B(DAM-3B)モデルは、マルチモーダル学習分野で広く注目を集めています。このモデルは、ユーザーが指定した画像またはビデオの領域に基づいて詳細な説明を生成でき、従来の画像注釈の限界を超えています。オープンソースコードとデータセットを通じて、DAM-3Bは開発者に豊富なリソースを提供し、マルチモーダルAIの研究と応用を促進しており、特に教育、医療、コンテンツ制作などの分野で大きな可能性を示しています。
【AiBase要約:】
🖌️ DAM-3Bは領域ごとの説明機能を備え、ユーザーが指定した領域に基づいて詳細な説明を生成し、説明の精度と豊かさを向上。
🔓 NVIDIAはDAM-3Bのコード、モデルウェイト、データセットをオープンソース化し、マルチモーダルAI研究の透明性とコミュニティ協力促進。
🌐 コンテンツ制作、スマートインタラクション、アクセシビリティ技術など様々な分野で幅広い応用可能性を示し、社会包摂の進歩を促進。
詳細リンク:https://github.com/NVlabs/describe-anything
6.ナノAIがMCP万能ツールボックスを発表、AIツールの統合と呼び出しを簡素化
ナノAIが発表したMCP万能ツールボックスは、Model Context Protocolの設定の複雑さを簡素化し、ワンストップソリューションを提供することを目的としています。このツールボックスは100以上のMCPサービスと18個の一般的なAPIキーを事前に設定しており、画像、音声、ビデオ生成などの様々な機能をサポートしています。その発表はAI開発者コミュニティの注目を集め、コミュニティからのフィードバックは好意的で、その効率性と使いやすさが開発者の作業効率を大幅に向上させると評価されています。
【AiBase要約:】
🔧 100以上のMCPサービスを事前に設定しており、開発者は手動で設定することなく直接呼び出しが可能で、参入障壁を低減。
🔑 18個の一般的なAPIキーを内蔵しており、ユーザーはキーを手動で取得する煩雑な手順を省き、初期設定を簡素化。
🌐 マルチモーダル生成をサポートし、自然言語指示で画像、音声、ビデオを生成し、創作効率を向上。
詳細リンク:https://bot.n.cn/download?src=AIBotCode
7.テンセントクラウドのコードアシスタントCodeBuddyがCraftソフトウェア開発インテリジェントエージェントを発表
テンセントクラウドは4月24日、新しくアップグレードされたコードアシスタントCodeBuddyを発表し、Craftソフトウェア開発インテリジェントエージェントを発表しました。このツールはAIプログラミングを単純なコード補完からプロジェクトデリバリーへと向上させ、開発効率を大幅に向上させます。開発者は自然言語でニーズを入力するだけで、Craftは完全なプロジェクトコードを自動生成し、主要なIDEをサポートします。CraftはMCPプロトコルもサポートしており、コードのシームレスなテスト、構築、展開を実現し、テンセントエコシステムと互換性があり、チームの効率的な協調作業を支援します。
【AiBase要約:】
🚀 Craftインテリジェントエージェントは、開発者の自然言語による要求を完全なプロジェクトコードに変換し、開発プロセスを大幅に簡素化。
🔗 MCPプロトコルをサポートし、AI生成コードをテストと展開段階にシームレスに統合し、開発の一貫性を向上。
🧩 CodeBuddyはテンセント社内で広く利用されており、85%の開発者がこのツールを使用し、全体的な開発効率を大幅に向上。
詳細リンク:https://cnb.cool
8.昆侖万維がSkywork-R1V2.0版をオープンソース化
昆侖万維は4月24日、そのマルチモーダル推論モデルSkywork-R1V2.0を発表しました。これは視覚とテキストの推論能力を大幅に向上させ、特に大学入試理系問題や一般的なタスクシナリオで優れたパフォーマンスを発揮します。このモデルは複数の権威あるベンチマークテストでオープンソースSOTA記録を更新し、商用クローズドソースモデルに匹敵する能力を示しています。R1V2.0のオープンソース化は、昆侖万維のマルチモーダル分野における技術力を示すだけでなく、世界の開発者や研究者に強力なツールを提供し、マルチモーダルエコシステムの構築を促進しています。
【AiBase要約:】
🔍 R1V2.0は中国語の理系問題推論において優れたパフォーマンスを示し、無料のAI解答アシスタントとして、複数のオープンソースSOTA記録を更新。
⚙️ マルチモーダル報酬モデルSkywork-VL Rewardと混合選好最適化メカニズムを採用し、多様なタスクや分野におけるモデルの適応能力を向上。
🌍 昆侖万維はオープンソースとイノベーションを推進することに尽力しており、R1V2.0のオープンソース化はAGIの発展に新たな基盤モデルを提供し、今後、最先端の大規模モデルとデータセットを継続的に発表。
詳細リンク:https://github.com/SkyworkAI/Skywork-R1V
9.智譜、傘下の複数の大規模モデル製品の値下げを発表 GLM-4-Plusは90%値下げ
智譜BigModelオープンソースプラットフォームは4月24日、傘下の複数の大規模モデル製品の価格を大幅に調整し、「億時代」に突入したことを発表しました。これにより、企業は低コストで高度なAI技術を利用できるようになります。今回の調整にはGLM-4-FlashX、GLM-Z1シリーズ、GLM-4-Plusなどの複数の製品が含まれており、特にGLM-4-Plusの値下げ幅は90%に達しています。この措置は、利用障壁を下げ、金融、インターネット、教育など複数の業界のニーズを満たし、市場における大規模モデル技術の広範な適用を促進することを目的としています。
【AiBase要約:】
🚀 GLM-4-FlashXモデルは、1億トークンあたりの価格がわずか10元で、推論速度はGPT-4と同等で、優れたパフォーマンスを発揮。
💡 GLM-Z1-AirXの推論速度はDeepSeek-R1の8倍で、コストパフォーマンスが高く、GLM-Z1-Airの価格はDeepSeek-R1の30分の1。
📉 GLM-4-Plusの価格は100万トークンあたり5元に値下げされ、業界をリードし、多様な業界のニーズに対応。
10.ChatGPT向けJSON Visualsが公開、無限の画像スタイル創作を解き放つ
ChatGPT向けJSON Visualsの公開は、画像生成に新たな創造的な次元をもたらしました。ユーザーは50種類以上の美学コードとランダム化ツールを使用して、簡単にパーソナライズされたビジュアルコンテンツを生成できます。このツールは生成の柔軟性を高めるだけでなく、高解像度出力もサポートしており、デジタルアート、ブランドマーケティング、ゲームデザインなどの様々な分野に適しています。コミュニティからのフィードバックは好意的で、今後の機能の最適化と拡張に期待が寄せられています。
【AiBase要約:】
✨ 50種類以上の美学コードで、多様なスタイルの生成をサポートし、創作ニーズに対応。
🔄 属性ランダム化ツールで、スタイル属性を自動調整し、無限の創造の可能性を探求。
🚀 高い互換性で、高解像度の画像を高速に生成し、ユーザーエクスペリエンスを向上。
詳細リンク:https://json.visuals.zip/
11.国家知識産権局:中国が世界最大のAI特許保有国となり、割合は60%に