【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツを提供し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、可灵AIが新たな機能を追加:Web版のリリース、開始フレームと終了フレームのコントロール、カメラワークのコントロールなどの機能を追加
可灵AIは最近、Web版のリリース、画質の向上、開始フレームと終了フレームのコントロール機能、カメラワークのコントロール機能の追加、動画生成の長さを10秒に延長するなど、重要な新機能を発表しました。更新内容は、基本モデルのアップグレード、開始フレームと終了フレームのコントロール、カメラワークのコントロール、動画生成の長さの増加、画像から動画への機能強化、Web版のリリースなどを網羅しています。可灵AIは高画質動画を生成でき、1080p解像度をサポートし、パーソナライズされた動画コントロールオプションを提供することで、ユーザーにより豊かで多様なコンテンツ作成を可能にします。Web版サービスは無料で利用でき、将来的には音声と口の動きを同期させる機能などもサポートする予定です。
【AiBase要約:】
🚀 基本モデルのアップグレードにより、1080p解像度をサポートし、映画レベルの画質を実現。
💡 開始フレームと終了フレームのコントロールにより、ユーザーは動画の開始と終了の画面をカスタマイズでき、パーソナライズされた創作体験を向上。
🎥 カメラワークコントロール機能の追加により、パンやチルトなど、動画をより生き生きと面白く演出。
詳細リンク:https://top.aibase.com/tool/keling-ai
2、快手、画像生成モデル「可图 Kolors」をオープンソース化
快手は本日、自社の画像生成モデル「可图 Kolors」をオープンソース化するという重要なニュースを発表しました。このモデルは数十億のテキストと画像のペアでトレーニングされており、汎用言語モデル(GLM)をテキストエンコーダーとして使用し、中国語と英語の両方のプロンプトをサポートし、長文処理能力と大量データトレーニングを備えています。可图 Kolorsは特に中国文化要素を最適化しており、中国語のテキスト生成をサポートし、強力な技術サポートと文化遺産を示しています。
【AiBase要約:】
🌟 中国語と英語の両方をサポート: 汎用言語モデル(GLM)をテキストエンコーダーとして使用し、中国語と英語のプロンプトをサポートし、最大256トークンのコンテキストを処理できます。
🚀 長文処理能力: 最大256トークンのコンテキスト長をサポートし、クリエイターは複雑なシーンや豊かなストーリーなど、心に思い描いたものを詳細に描写できます。
💡 大量データトレーニング: 数十億のテキストと画像のペアでトレーニングされており、モデルは膨大な知識ベースを持ち、多様で正確な画像を生成できます。
可图へのアクセス:https://top.aibase.com/tool/kuaishouketudamoxingkolors
詳細な内容紹介:https://www.aibase.com/news/10085
3、快手、AIGCによる超短編ドラマ「山海奇鏡之劈波斬浪」を公開
快手は、中国初のAIGCオリジナルファンタジー超短編ドラマ「山海奇鏡之劈波斬浪」を公開しました。伝統的な魅力と現代の技術を融合し、視聴者に衝撃的な視聴体験を提供します。大規模言語モデル技術のサポートにより、アップグレードされた視覚効果を実現し、超短編ドラマ業界の発展を促進し、「AIGC+超短編ドラマ」という新たなトレンドを牽引します。
【AiBase要約:】
🎬 快手、中国初のAIGCオリジナルファンタジー超短編ドラマ「山海奇鏡之劈波斬浪」を公開
💡 超短編ドラマは「山海経」をインスピレーション源としており、サイバーパンクスタイルで古代神話の登場人物や不思議な生き物、珍しい花などを再現
🌟 快手は「星芒短劇×可灵大模型」クリエイター育成プランを発表し、AIGC超短編ドラマの創作を支援
詳細内容:https://www.aibase.com/news/10075
4、月之暗面、Kimiブラウザプラグインをリリース 点問筆、サマリー機能などをサポート
Moonshot AIがリリースしたKimiブラウザプラグインは、ユーザーに点問筆とサマリーという2つの主要機能を提供し、Webページやアプリケーションでのユーザーエクスペリエンスを向上させます。プラグインはグローバルフローティングウィンドウとサイドバーモードをサポートし、ユーザーがライティング中に継続的な会話と検索を行うのに便利です。また、KimiはPDFファイルのオープン、参照ソースの検索、コンテンツのコピーなどの機能を追加することで、ユーザーエクスペリエンスを最適化しました。両端同時更新では、電卓と問題推薦機能も追加されました。
【AiBase要約:】
🖊️ 点問筆機能により、ユーザーはテキストを選択して即座に説明と回答を得ることができます。
📝 サマリーはWebページの右下隅にあり、ユーザーは全文をすばやく要約できます。
🔗 ショートカットキーでKimiを呼び出し、便利な操作と機能の推奨を提供します。
詳細リンク:https://kimi.moonshot.cn/extension/download
5、阿里巴巴達摩院「尋光」が衝撃的な登場!制御可能な編集で、AI動画ワークフローを簡単に実現
AI動画制作分野に革命的な変化が訪れました。アリババ達摩院が発表した「尋光」プラットフォームはWAICで衝撃的なデビューを果たし、クリエイターにワンストップのAI動画制作ソリューションを提供し、制作効率を大幅に向上させ、動画制作ワークフローを再構築します。
【AiBase要約:】
✨ ワンストップAI動画制作プラットフォーム「尋光」が登場。脚本作成、ストーリボードデザイン、動画素材編集を統合し、シンプルで効率的。
🔥 AI技術の応用により、カメラアングル調整、オブジェクトの削除と修正などがワンクリックで完了し、制作効率が向上。
💡 尋光プラットフォームは、脚本作成支援、AI編集機能、カメラワークコントロール、オブジェクトの追加/削除/修正など、多くの強力な機能をサポート。
詳細リンク:https://top.aibase.com/tool/xunguangshipinchuangzuopingtai
6、書生・浦語2.5——InternLM2.5-7Bモデルのオープンソース化を発表
2024年7月3日、上海人工知能研究所と商湯科技は、香港中文大学と復旦大学と共同で、次世代大規模言語モデルInternLM2.5-7Bを発表しました。このモデルは、推論能力、長文サポート、自律的な計画とツールの呼び出しにおいて顕著な向上を見せています。
【AiBase要約:】
🚀 InternLM2.5-7Bモデルは推論能力において優れた性能を発揮し、特に数学評価セットMATHにおいて100%の性能向上を実現し、正確率は60%に達しました。
💬 最大100万トークンのコンテキストを処理でき、長文の理解とエージェントとのインタラクションを最適化。
🔍 何百ものWebページ情報を検索して統合する能力を持ち、MindSearchマルチエージェントフレームワークを通じて、Web情報を効果的に統合。
詳細リンク:https://github.com/InternLM/InternLM
7、阿里巴巴通義オーディオ生成大規模モデルFunAudioLLMをオープンソース化 感情表現音声対話、オーディオブックなどのシナリオをサポート
アリババ通義研究所は最近、FunAudioLLMというオーディオ生成大規模モデルプロジェクトをオープンソース化しました。これは、人間と大規模言語モデル(LLM)間の自然な音声インタラクション体験を向上させることを目的としています。このプロジェクトには、SenseVoiceとCosyVoiceという2つのコアモデルが含まれており、それぞれ音声生成と音声認識に特化しています。FunAudioLLMは、多言語翻訳、感情表現音声対話、インタラクティブポッドキャスト、オーディオブックなど、さまざまな人間と機械のインタラクションアプリケーションシナリオをサポートしています。
【AiBase要約:】
🔊 CosyVoiceは自然な音声生成に特化し、多言語、音声、感情のコントロールをサポートし、優れた性能を発揮します。
🔍 SenseVoiceは高精度な多言語音声認識と感情認識に特化し、50以上の言語をサポート。
🔗 FunAudioLLMプロジェクトはSenseVoice、LLM、CosyVoiceを組み合わせ、シームレスな音声翻訳と感情表現音声チャットアプリケーションをサポート。
詳細リンク:https://github.com/FunAudioLLM
8、清華大学、CodeGeeX4-ALL-9Bをオープンソース化:多言語コード生成モデル 主要な競合他社を凌駕
清華大学知識工学グループとデータマイニングチームが発表したCodeGeeX4-ALL-9Bは、コード生成モデルの発展におけるマイルストーンであり、比類のない性能、包括的な機能、ユーザーフレンドリーな統合を備え、ソフトウェア開発の効率とイノベーションを促進します。
【AiBase要約:】
🚀 CodeGeeX4-ALL-9BはCodeGeeXシリーズの最新の革新的な成果であり、多言語コード生成の頂点を極め、新たな性能と効率の基準を打ち立てました。
💡 9.4億個のパラメーターを持ち、同クラスで最も強力なものの1つであり、優れた性能とリポジトリレベルのコードQ&A機能を備え、開発者とコードリポジトリのインタラクション効率を向上させます。
🔗 CodeGeeX4-ALL-9Bは性能ベンチマークテストで卓越した性能を発揮し、より大規模なモデルを凌駕し、主要なモデルとしての地位を確立しました。
詳細リンク:https://huggingface.co/THUDM/codegeex4-all-9b
9、AI画像盗用対策ツールGlazeの需要が急増 多くのアーティストが注目
Glazeツールは、アーティストのスタイルがAI画像ジェネレーターによって盗用されるのを防ぐために開発されました。Metaがユーザーデータを使用してAIトレーニングを行う計画を発表したことで、Glazeの需要は急激に増加しました。しかし、セキュリティ研究者はGlazeの保護を回避する方法を発見し、その有効性について疑問を投げかけています。
【AiBase要約:】
🖼️ アーティストに人気のGlazeツールは、AI画像盗用を防ぐために使用されます。
🔒 Metaがユーザーデータを使用してAIトレーニングを行う計画を発表したことで、Glazeの需要が急増。
⚙️ セキュリティ研究者はGlazeの保護を回避する方法を発見し、その有効性について疑問を投げかけています。
詳細リンク:https://top.aibase.com/tool/glaze
10、SFが現実になる?Open-TeleVisionが遠隔操作ロボットをサポート
この記事では、カリフォルニア大学サンディエゴ校とマサチューセッツ工科大学の研究者らが開発したOpen-TeleVisionプロジェクトについて説明します。このプロジェクトは、映画「アバター」のような、ロボットを遠隔操作するハイテクなシナリオを実現しました。システムはさまざまなデバイスをサポートし、没入型の体験を提供し、VRヘッドセットを使用して遠隔操作を行うことで、操作の利便性とリアリティを大幅に向上させています。
【AiBase要約:】
🌟 オープンソースの遠隔操作システムで、複数のデバイスに対応し、簡単に操作可能。リアルタイムの立体映像ストリームにより、より正確な操作を実現。
🤖 VRヘッドセットを使用して人間の視覚と首の動きをシミュレートし、没入型の体験を実現。従来の2Dビデオの平凡さとは一線を画します。
🔧 逆運動学アルゴリズムとWebプラットフォームを使用して効率的な遠隔操作を実現。ヒューマノイドロボットの自由度のマッチング問題を解決し、データ収集とトレーニングによりロボットが自律的にタスクを実行可能に。
詳細リンク:https://github.com/Improbable-AI/VisionProTeleop