【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、百度が文心大規模言語モデルERNIE Speed、ERNIE Liteの全面無料化を発表
百度スマートクラウドは、主力モデルであるERNIE SpeedとERNIE Liteの2つの無料公開を発表しました。ERNIE Speedは高性能の大規模言語モデルで、特定のシナリオの問題を微調整処理するのに適しています。ERNIE Liteは軽量な大規模言語モデルで、低計算能力のAIアクセラレータカード推論の使用に適しています。
【AiBase要約:】
🚀 ERNIE Speedは百度が2024年に発表した最新の自社開発の高性能大規模言語モデルで、汎用能力に優れています。
💡 ERNIE Liteは百度が自社開発した軽量な大規模言語モデルで、優れたモデル効果と推論性能を両立しています。
💻 ERNIE SpeedとERNIE Liteは全面的に無料で、即時有効です。
2、アリババクラウドがGPT-4レベルの主力モデルQwen-LongのAPI入力料金を97%の大幅値下げを発表
アリババクラウドは、GPT-4レベルの主力モデルQwen-LongのAPI入力価格を大幅に引き下げ、ユーザーに大きなメリットと競争力を提供し、テキスト処理能力の購入をより経済的にしました。
【AiBase要約:】
🚀 API入力価格は1000トークンあたり0.0005元となり、97%の値下げを実現しました。ユーザーは1元で200万トークンを購入できます。
💡 最大1000万トークンのテキスト入力をサポートし、価格はGPT-4の約400分の1で、世界で最も競争力のあるモデルの一つとなっています。
🌍 通義大規模モデルはアリババクラウドを通じて9万社以上の企業に、釘釘を通じて220万社以上の企業にサービスを提供しており、国内外の多くの中小企業や開発者から広く利用されています。
3、バイトダンスの豆包大規模モデルの価格表が公開:25元から
この記事では、バイトダンス傘下の火山エンジンウェブサイトが豆包大規模モデルの価格設定情報を更新したことを紹介しています。豆包大規模モデルはコストパフォーマンスに優れており、主力モデルの価格は99%削減され、性能対価比が優れています。豆包大規模モデルファミリーには様々なメンバーが含まれており、様々なユーザーのニーズを満たしています。課金モデルは柔軟で、後払い方式と前払い方式の2つの方法が企業のニーズを満たしています。
【AiBase要約:】
🔍 豆包大規模モデルの価格が更新され、最低価格はわずか25元で、コストパフォーマンスに優れています。
💡 豆包大規模モデルファミリーは多様化しており、Pro、Liteなど様々なモデルがあり、処理能力が強力です。
💰 課金モデルは柔軟で、後払い方式と前払い方式の2つの方法が企業のニーズを満たしています。
4、智譜が次世代マルチモーダル大規模モデルCogVLM2をオープンソース化
智譜・AIは最近、次世代マルチモーダル大規模モデルCogVLM2を発表しました。性能が大幅に向上し、8Kのテキスト長と1344*1344解像度の画像をサポートしています。CogVLM2は複数のベンチマークテストで優れたパフォーマンスを示し、強力なドキュメント画像理解能力を備えています。技術アーキテクチャが最適化され、モデルサイズは19Bで、GPT-4Vレベルに匹敵するか、それを上回る性能を備えています。推論時の実際の活性化パラメータ数は約120億で、推論効率が大幅に向上しています。
【AiBase要約:】
🚀 CogVLM2はOCRbenchベンチマークで32%、TextVQAベンチマークで21.9%の性能向上を実現しました。
💡 CogVLM2は深層融合戦略を採用し、視覚モダリティと言語モダリティを緊密に結合し、言語処理の利点を維持しています。
🔥 CogVLM2はTextVQA、DocVQA、ChartQAなど、複数のマルチモーダルベンチマークテストで優れた成績を収めています。
詳細リンク:https://github.com/THUDM/CogVLM2
5、面壁智能が最新世代の端末側マルチモーダルモデルMiniCPM-Llama3-V2.5を発表
面壁智能が発表した最新世代の端末側マルチモーダルモデルMiniCPM-Llama3-V2.5は、超強力な総合性能を備えており、OCRにおいてSOTAの成績を収め、複数の言語をサポートし、端末側システムレベルのマルチモーダルアクセラレーションを実現し、強力なマルチモーダル総合能力を示し、端末側AIモデルの発展に新たな突破口をもたらしています。
【AiBase要約:】
🚀 MiniCPM-Llama3-V2.5は超強力な総合性能を備え、Gemini ProとGPT-4Vを凌駕しています。
🔍 OCRにおいてSOTAの成績を収め、難しい画像、長い画像、長いテキストを正確に認識します。
💡 端末側システムレベルのマルチモーダルアクセラレーションを初めて実現し、画像エンコーディング速度を150倍向上させました。
詳細リンク:https://github.com/OpenBMB/MiniCPM-VMiniCPM
6、テンセントが月之暗面に投資を計画、評価額は30億ドルに達する可能性
テンセントは月之暗面に投資を計画しており、評価額を30億ドルに引き上げる可能性があります。この動きは、テンセントの人工知能分野における戦略的配置と競争意図を示しています。中国の人工知能産業の急速な発展により、投資と競争が激化しており、テンセントと月之暗面の協力は業界で注目を集めるでしょう。
【AiBase要約:】
🚀 月之暗面は大規模言語モデル分野でトップレベルに位置し、テンセントなどの巨大企業の注目を集めています。
💰 月之暗面は設立から1年余りで、10億ドルを超える資金調達を完了し、評価額は25億ドルに達しています。
📈 テンセントは人工知能分野の競争に加わり、他の大規模モデルスタートアップ企業への投資を計画し、競争力を強化します。
7、ラインプリプロセッサAnylineがWeb UIへの対応を追加
この記事では、Anylineの最新のアップデートを紹介しており、Web UI Controlnetへの対応を追加し、ユーザー操作体験を向上させています。Chenlei HuはAnylineの使用をさらに簡素化し、ComfyUIにより深く統合することを検討しています。ユーザーは必要に応じて適切な基本モデルを選択して、最適な効果を得ることができます。このアップデートにより、Anylineの強力な機能がWeb UIに搭載され、専門的なデザイン作業や日常的な画像処理に便利さをもたらします。
【AiBase要約:】
🔍 高精度ライン抽出:Anylineは画像内のオブジェクトのエッジ、ディテール、テキストコンテンツを正確に抽出し、クリアなエッジと高忠実度のテキストのライン図を出力します。
🌐 幅広い適用性:ユーザーはあらゆるタイプの画像を入力でき、Anylineは迅速に処理し、高品質のライン図を提供します。
🔬 テクスチャフォント認識の優位性:Anylineは輪郭の精度、オブジェクトの詳細、素材のテクスチャ、フォントの認識において明確な優位性を持ち、より優れたノイズ除去効果も提供します。
詳細リンク:https://top.aibase.com/tool/anyline
8、MetaがGPT-4レベルのマルチモーダルモデルChameleonを発表
この記事では、Metaが最近発表したマルチモーダルモデルChameleonを紹介しています。このモデルはマルチモーダルモデル分野で新たな基準を確立し、早期融合、統一Transformerアーキテクチャなどの革新的な特徴を備えています。Chameleonは、ビジュアル質問応答、画像アノテーション、テキスト生成など、様々なタスクで幅広い能力を示しています。この記事では、Chameleonが直面する技術的な課題と、Metaチームが導入したアーキテクチャの革新とトレーニング技術についても触れています。
【AiBase要約:】
🌟 Chameleonは、画像とテキストの任意の順序を理解して生成できる、早期融合に基づくトークンベースの混合モダリティモデルファミリーです。
🔑 Chameleonモデルは技術的に大きな課題に直面しており、Metaの研究チームは一連のアーキテクチャの革新とトレーニング技術を導入しました。
💡 Chameleonモデルはベンチマーク評価でLlama2を全面的に上回り、常識推論、読解力、数学問題、世界知識の分野で顕著な成果を収めています。
詳細リンク:https://arxiv.org/pdf/2405.09818Chameleon
9、マイクロソフトがAIツールRecallを発表、見つからないファイルを見つけるお手伝い
マイクロソフトはRecall AIを発表し、Copilot+ PCシリーズに「写真記憶」機能を提供しました。ユーザーは音声でファイル、ウェブサイト、または電子メールを検索し、AIによるインデックス作成と検索を行うことができます。この機能は、ユーザーが必要な情報をより簡単に検索するのに役立ち、データはデバイスのローカルに保持されるため、情報がクラウドサーバーに送信される心配はありません。
【AiBase要約:】
🔍 Recall AIはCopilot+ PCシリーズに「写真記憶」機能を提供し、ユーザーは音声でファイル、ウェブサイト、または電子メールを検索し、AIによるインデックス作成と検索を行うことができます。
🔍 Recall AIはユーザーの画面操作を記録し、自然言語でファイルの記憶を記述し、ドキュメントの最新バージョンを迅速に見つけ、ユーザーがより簡単に情報にアクセスできるようにします。
🔍 Recall AIは、ARM64プロセッサ、Snapdragon X Elite、X Plusなど、特定のハードウェア要件を備えたデバイスでのみ使用できます。
10、Llama3コードベースのゼロからの再現が話題に Karpathy大神が作者を称賛
この記事では、Llama3をゼロから実装する方法を紹介するコードベースがインターネットで話題になっている状況を紹介しています。著名なAI専門家Andrej Karpathyはこのプロジェクトを高く評価し、作者Nishant Aklechaの詳細な説明とプレゼンテーションを称賛しました。この記事では、Llama3モデルの実装プロセス、注意機構、位置エンコーディングなどの重要な内容について詳しく説明しています。
【AiBase要約:】
🔥 コードベースが話題になり、多くの開発者の注目を集め、Karpathyが点赞とリツイート、コメントをしています。
👨💻 作者Nishant AklechaはLlama3モデルの実装プロセスを詳細に説明し、注意機構と位置エンコーディングを含んでいます。
🚀 ナゴがLlama3をゼロから実装し、各行のコードの機能を示し、Karpathyは詳細な展開が理解しやすいと称賛しています。
詳細リンク:https://top.aibase.com/tool/llama3-from-scratch
11、AIフレームワークAmbient Diffusion:画像からインスピレーションを得る、複製ではない
テキサス大学オースティン校の研究チームは、識別できない画像をトレーニングすることで、AIモデルが他人の作品を複製する問題を回避するAmbient Diffusionというフレームワークを開発しました。このフレームワークは芸術分野だけでなく、ブラックホールの画像化やMRIスキャンなど、科学や医学分野にも応用できる可能性があります。研究チームの革新は、人工知能の発展に新たな視点を提供しています。
【AiBase要約:】
🔍 Ambient Diffusionフレームワークは、乱れた画像データをトレーニングすることで、AIモデルが作品を複製する問題を解決します。
💡 このフレームワークは可能性が大きく、ブラックホールの画像化やMRIスキャンなど、芸術、科学、医学の分野に適用できます。
📝 初期の試験では、Ambient Diffusionフレームワークは、元のソース画像の内容を識別することなく、高品質のサンプルを生成できることが示されています。
詳細リンク:https://arxiv.org/abs/2305.19256
12、ハリウッド女優スカーレット・ヨハンソンがOpenAIによる音声の無断使用を批判
スカーレット・ヨハンソンは、ChatGPTに声を提供することを拒否した後、OpenAIが彼女独特の声色を勝手に模倣したと主張しています。OpenAIは、映画『Her』でスカーレット・ヨハンソンが演じたAIアシスタントと非常に似た合成音声を紹介しましたが、突然その新しい声を無効にしました。評論家たちはOpenAIの行動を批判し、スカーレット・ヨハンソンの立場を称賛しています。
【AiBase要約:】
⭐ スカーレット・ヨハンソンはOpenAIが彼女のトーンを勝手に模倣したと主張しています。
⭐ OpenAIは、映画『Her』でスカーレット・ヨハンソンが演じたAIアシスタントと似た合成音声を紹介しました。
⭐ 評論家たちはOpenAIの行動を批判し、スカーレット・ヨハンソンの立場を称賛しています。
13、インテルが次世代Lunar Lakeチップを発表
インテルは今年第3四半期にLunar Lakeノートパソコンプロセッサを発表する予定です。これは、Copilot Plus PCに全く新しいAI体験を提供することを目的としています。このチップは、前身のMeteor Lakeよりも3倍高いAI性能を提供し、年末までに40万個以上のLunar Lakeチップを搭載する予定です。この動きは、インテルがAI PC市場における重要な一歩であり、競合他社の挑戦に対処することを目的としています。
【AiBase要約:】
⭐ Lunar Lakeチップは、CPU、統合型Xe2GPU、ニューラルプロセッシングユニット(NPU)を採用し、前身のMeteor Lakeよりも3倍高いAI性能を提供します。
⭐ インテルは年末までに、AMDのZen5とQualcommのOryonに対抗するため、世界80種類以上の新型ノートパソコンモデルに40万個以上のLunar Lakeチップを搭載する予定です。