【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求する毎日ガイドです。毎日、AI分野のホットな話題を提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。

最新のAI製品詳細はこちらhttps://top.aibase.com/

1、OpenAIがGPT-4o miniを発表、API価格を60%値下げ!

OpenAIは、AI分野の「お買い得品」と称されるGPT-4o miniを発表し、価格を60%値下げしました。このモデルは、コストとパフォーマンスの両面で優れた成果を上げており、AI革命への道を切り開いています。

image.png

【AiBase要約:】

💡 GPT-4o miniの価格は60%値下げされ、100万トークンあたりの入力コストは15セント、出力コストは60セントと非常にコストパフォーマンスが高いです。

💡 テキストとビジュアルAPIに対応しており、将来的には画像、ビデオ、オーディオの入出力にも対応予定で、機能は多様で強力です。

💡 学術テストで優れた成績を収め、GPT-3.5 Turboを上回り、マルチモーダル推論に対応し、128Kトークンのコンテキストウィンドウを備えています。

2、テンセントとファーウェイが共同でAI着せ替え技術IMAGDressing-v1を発表:ControlNet、テキストプロンプトによるシーン背景生成に対応

IMAGDressing-v1は、革新的なAI着せ替えツールで、ユーザーにより柔軟でリアルな仮想試着体験を提供します。シンプルな構造と効率的なカスタマイズ機能により、仮想試着が直感的で便利になります。また、様々なプラグイン拡張機能に対応し、部分的な衣類交換実験機能もサポートしており、将来の仮想試着技術の可能性を示しています。

image.png

【AiBase要約:】

🌟 シンプルな構造で、迅速なカスタマイズ:IMAGDressing-v1は追加のトレーニングが不要で、リアルな着用効果を迅速に生成します。

🛠️ 柔軟なプラグイン互換性:IP-AdapterやControlNetなどのプラグインとの連携に対応し、ツールの機能と適用性を向上させます。

🔄 部分的な衣類交換:実験的な機能として、衣類の特定領域の交換が可能で、仮想試着の柔軟性を高めます。

詳細リンク:https://top.aibase.com/tool/imagdressing

3、長尺動画も問題なし!Goldfish:任意の長さの動画を理解可能

Goldfishは、従来のAIモデルが長尺動画の処理で抱えていた課題を解決する画期的な技術です。効率的な検索メカニズムと説明生成技術により、Goldfishは任意の長さの動画コンテンツを処理でき、長尺動画分野での優れたパフォーマンスに加え、短尺動画の理解においても顕著な進歩を遂げています。

image.png

【AiBase要約:】

🔍 Goldfishは効率的な検索メカニズムを採用し、長尺動画から指示に関連する動画クリップを抽出することで、長尺動画処理の問題を解決します。

🚀 Goldfishチームは、動画クリップの詳細な説明を生成できるMiniGPT4-Videoを開発し、長尺動画処理能力を向上させています。

💡 GoldfishはTVQA-longベンチマークテストで41.78%の精度を達成し、短尺動画ベンチマークテストでも優れた成績を収め、その強力な処理能力を示しています。

詳細リンク:https://top.aibase.com/tool/goldfish

4、科大訊飛星火がSpark Pro-128K大規模モデルを発表

科大訊飛が発表したSpark Pro-128K大規模モデルは、超長文処理能力を備えており、AI大規模モデルの実用的な価値を大幅に向上させます。このモデルは超長文の処理だけでなく、コンテンツのソース追跡機能も備えており、回答の信頼性を高めています。開発者は500万トークンを無料で入手して、この大規模モデルの機能を試用できます。

【AiBase要約:】

🚀 訊飛星火大規模モデルV4.0は、GPT-4 Turboを全体的に上回り、7つの主要な能力が全面的に向上しています。

🔍 超長文処理に対応し、回答のソースを示すことで、回答の信頼性を高めています。

💡 開発者はSpark Pro-128kバージョンを500万トークン無料で試用できます。

5、DeepLが次世代翻訳AIを発表、翻訳精度はGPT-4を上回る

DeepL社が発表した最新の次世代言語モデルは、翻訳精度においてGoogle翻訳とGPT-4を上回り、ユーザーにより高品質な翻訳体験を提供します。ユーザーはDeepL Proプランで簡単に新しいモデルに切り替えることができ、月額料金は1150円からです。

image.png

【AiBase要約:】

📈 次世代言語モデルは、翻訳精度においてGoogle翻訳とGPT-4を上回り、翻訳品質を向上させています。

🔍 日英相互翻訳、簡体字中国語と英語の相互翻訳、独英相互翻訳で特に優れた性能を発揮し、編集作業量が大幅に削減されます。

💵 DeepL Proプランで新しいモデルに対応しており、ボタンで切り替えることができ、月額料金は1150円からです。

6、bilibiliの長尺動画まとめツール!豆包ブラウザープラグインがポッドキャストと動画のまとめ機能をリリース

情報が溢れる現代において、豆包ブラウザープラグインは、大量の情報を効率的に吸収・整理するための新しいソリューションを提供します。動画コンテンツの要約、目次生成、マインドマップ作成、ノート機能などを提供し、情報の処理効率を大幅に向上させます。また、ポッドキャストの要約、記事の要約、翻訳機能にも対応しており、ユーザーに多様な学習ツールを提供します。ユーザーフレンドリーな設計と多機能性により、豆包ブラウザープラグインは、日々の学習や仕事における頼もしいアシスタントとなります。

QQ截图20240719104954.jpg

【AiBase要約:】

🔍 豆包ブラウザープラグインは、動画コンテンツの要約、目次生成、マインドマップ作成、ノート機能を提供し、ユーザーが長尺動画の内容を迅速に理解・消化するのに役立ちます。

🎧 豆包ブラウザープラグインはポッドキャストの要約機能に対応しており、ポッドキャストを聞き終えてテキスト要約に変換することで、ユーザーの情報処理効率を向上させます。

📚 豆包ブラウザープラグインには、記事の要約と翻訳機能も備えており、快適なインタラクションデザインは、様々なタイプのユーザーに適しています。

詳細リンク:

https://chromewebstore.google.com/detail/%E8%B1%86%E5%8C%85%EF%BC%8C%E6%B5%8F%E8%A7%88%E5%99%A8-ai-%E5%8A%A9%E6%89%8B/dbjibobgilijgolhjdcbdebjhejelffo

7、GroqがオープンソースのLlama AIモデルを発表、ランキングでトップに、関数呼び出しではGPT-4oとClaudeを上回る

Groqが発表したオープンソースのAIモデルは、特定のタスクで優れた性能を発揮し、テクノロジー大手独自のモデルに挑戦しています。合成データによるトレーニングを通じて、一般的なデータプライバシーと過学習の問題を解決しており、AI分野の発展方向を変える可能性があり、より広範なAIへのアクセスと革新的なエコシステムの育成を促進するでしょう。

image.png

【AiBase要約:】

⭐ Groqが発表したオープンソースのAIモデルは、特定のタスクにおいてテクノロジー大手の独自モデルを凌駕しています。

⭐ 合成データを用いたトレーニングにより、AIモデル開発における一般的なデータプライバシーと過学習の問題に挑戦しています。

⭐ オープンソースモデルの発表は、AI分野の発展方向を変える可能性があり、より広範なAIへのアクセスと革新的なエコシステムの育成を促進するでしょう。

8、世界初の完全AI翻訳吹き替え映画が間もなく公開、吹き替えの仕事は失業危機に!

AIによる完全翻訳吹き替えが施された世界初の映画「Watch The Skies」が、間もなくアメリカの主要映画館で公開されます。Flawless社のTrueSync技術により、人工知能による翻訳と吹き替えを実現し、視聴者によりリアルな映画体験を提供します。

【AiBase要約:】

🎬 映画「Watch The Skies」は、Flawless社のTrueSync技術によりAIによる完全翻訳吹き替えを実現し、まるで英語で撮影されたかのような感覚を視聴者に与えます。

🤖 Flawless社のAI吹き替え技術は、映画内のすべてのキャラクターの口パクを英語と完全に同期させ、吹き替え版を視聴する際の違和感を取り除きます。

🌐 Flawless社は、TrueSync技術を通じて、ストリーミングサービスで人気番組を視聴する際に、口パクのずれや残酷なシーンの編集による問題を解消することを目指しています。

詳細リンク:

https://variety.com/2024/film/news/flawless-ai-lip-dubbing-movies-tv-1236068071/

9、英語動画翻訳ツールEasyVideoTransが高速変換と柔軟な編集を可能に

グローバル化の時代において、言語を超えたコミュニケーションは非常に重要です。EasyVideoTransはGPUアクセラレーション技術を利用して、高速な動画変換を実現し、翻訳時間を節約します。操作が簡単で、柔軟にカスタマイズでき、複数のプラットフォームで使用できます。

image.png

【AiBase要約:】

効率的な高速変換:GPUアクセラレーション技術を利用して、動画変換を高速で完了します。

パーソナライズされたカスタマイズ:字幕編集、翻訳エンジンの選択が可能で、ユーザーはパラメーターを柔軟に調整できます。

簡単な操作:直感的なWEBインターフェース設計で、簡単に操作でき、複雑な操作は必要ありません。

詳細リンク:https://top.aibase.com/tool/easyvideotrans

10、Googleが「アメリカ公式AIスポンサー」に

Googleはアメリカチームの公式AIスポンサーとなり、2024年パリオリンピックのライブ放送でGemini AIなどの人工知能機能を披露します。パートナーであるNBCUniversalは、Googleマップの3Dビューと競技場の詳細を強調表示し、解説者はGoogle検索AIの概要を利用してオリンピックに関する質問に答え、俳優やアスリートもGeminiなどのAIツールを使用して様々なイベントに参加します。コメディアンのレスリー・ジョーンズは、Geminiと協力して新しいスポーツを学び、パリを探検します。

【AiBase要約:】

🏅 Google Gemini AIが2024年パリオリンピックのライブ放送で活躍します。

🌍 ライブ放送では、Googleマップの3Dビューと競技場の詳細が紹介されます。

🔍 解説者はGoogle検索AIの概要を利用してオリンピックに関する質問に答え、俳優やアスリートもGeminiなどのAIツールを使用して様々なイベントに参加します。

11、AI「脱獄」の新手法!「過去形」プロンプトでGPT-4oなど6つの主要モデルを瞬時に突破

何度も改良を重ねた大規模言語モデル(LLMs)は、自然言語処理において優れた性能を発揮していますが、リスクも伴います。研究者らは、有害な要求を過去形に変換するだけで、拒否トレーニングを回避し、高度なLLMsが「脱獄」することを発見しました。この研究は、AIアラインメント技術の限界を明らかにし、AIの汎化能力に関する議論を引き起こしています。

image.png

【AiBase要約:】

🔍 大規模言語モデルは自然言語処理において優れた性能を発揮しますが、有害なコンテンツの生成や誤情報の拡散などのリスクがあります。

🚫 有害な要求を過去形に単純に変換することで、多くの高度なLLMsが「脱獄」し、拒否トレーニングを回避します。

🔗 解決策としては、トレーニングデータに過去形を含む例を含めることで、モデルの過去形要求に対する拒否能力を高めることです。

詳細リンク:https://arxiv.org/pdf/2407.11969

12、OpenAIがブロードコムなどとの間で次世代AIサーバーチップの開発を協議

OpenAIはブロードコムなどの企業と次世代AIサーバーチップの開発を協議しており、AI開発における同社の計算能力の向上、Nvidia GPUへの依存度の軽減、市場競争力の強化を目指しています。

【AiBase要約:】

🗣️ OpenAIのCEOであるサム・アルトマン氏は、同社のAI開発における計算能力を向上させる計画を主導しています。

🤝 OpenAIは、Google TPUの開発に携わった元従業員を採用し、チップ設計作業を支援しています。

🚀 OpenAIのチップ開発計画は、Nvidia GPUへの依存度を軽減し、AIチップ市場における競争力を高めることを目指しています。

13、Metaがブラジルにおける生成AIツールのトレーニングを一時停止