【AI日報】へようこそ!ここは、あなたの人工知能の世界を探求するための毎日のガイドです。毎日、AI分野のホットなコンテンツをご紹介し、開発者に焦点を当て、技術トレンドの洞察と革新的なAI製品の応用を理解するお手伝いをします。
最新のAI製品詳細はこちら:https://top.aibase.com/
1、Synthesiaが新型デジタルヒューマンExpressive-1正式版を発表 テキストから感情を読み取る
Synthesia社は、テキストの内容に基づいて豊かな表情を自動的に表現できるAIアバター技術「Expressive-1 AI Avatars」を発表しました。この技術は、ビデオの表現力と魅力を高め、表現力の向上、感情反応の同期、人間の微表情やボディランゲージの模倣などの特徴があります。

【AiBase要約:】
✨ 表現力の向上: Expressive-1は、テキストの意味の変化に応じて、適切なトーン、表情、ボディランゲージを自動的に表現し、より自然な感情表現を実現します。
😊 感情反応の同期: バーチャルキャラクターは、感情状態に合わせた表情やトーンを正確に表現し、感情表現の正確性を高めます。
🎤 音声と口パクの同期: 各バーチャルキャラクターには、マッチした音声と優れた口パク同期技術が搭載されており、音声と唇の動きの一貫性を確保します。
詳細リンク:https://top.aibase.com/tool/synthesia
2、iFLYTEK星火大規模モデルV3.5がアップグレード 長文、長文画像、長音声大規模モデルが登場
中国科学技術大学(USTC)のiFLYTEK社は、星火大規模モデルV3.5のアップグレード版を発表し、複数感情超擬人化合成技術を導入、長文、長文画像、長音声大規模モデル、そして星火インテリジェントプラットフォームを発表しました。入札参加申請や契約業務に強力な技術サポートを提供します。

【AiBase要約:】
🚀 iFLYTEKは星火大規模モデルV3.5のアップグレード版を発表し、複数感情超擬人化合成技術を導入しました。
🔥 初の、長文、長文画像、長音声大規模モデルを発表し、より強力な技術サポートを提供します。
💡 星火大規模モデルは、汎用的な長文処理において優れた性能を発揮し、GPT-4Turboを凌駕しています。
詳細リンク:https://top.aibase.com/tool/xunfeixinghuorenzhidamoxing
3、iFLYTEK:星火V4.0版6月27日発表
iFLYTEK社は、長文、長文画像、長音声に対応した最初の巨大言語モデルを発表しました。画像認識、契約アシスタント、スマート入札アシスタントなど、一連の新しい機能を提供し、より生き生きとした個性的な表現を実現し、企業の導入課題を解決し、従業員の生産性向上に貢献します。劉慶峰CEOは、星火V4.0を6月27日に正式発表すると述べています。
【AiBase要約:】
🚀 iFLYTEKは、長文、長文画像、長音声に対応した最初の巨大言語モデルを発表し、より専門的で正確な業界シナリオへの回答を提供します。
📝 契約アシスタントとスマート入札アシスタントを発表し、契約審査の効率を高め、入札をより便利、効率的、正確にします。
🌟 新しいインテリジェントプラットフォームを発表し、大規模モデルの企業導入における課題を解決し、従業員のための専用アシスタントを作成し、企業の生産性向上を支援します。
詳細リンク:https://top.aibase.com/tool/xunfeixinghuorenzhidamoxing
4、中華料理も作れる国産ロボットが登場!星塵智能がAIロボットAstribot S1を発表
家事用ロボット分野を革新する国産AIロボットAstribot S1が登場しました。模倣学習、大規模モデルによる強化、ソフト・ハードウェアの協調などのコア機能を備えています。その操作性能は卓越しており、家庭や職場でのマルチタスク能力を示し、将来の生活におけるAIロボットの広範な応用可能性を示唆しています。

【AiBase要約:】
🤖 模倣学習:Astribot S1は人間の行動を模倣し、複雑なタスクを実行でき、大人の敏捷性と柔軟性を備えています。
🧠 大規模モデルによる強化:大規模モデルに接続してテストを実施しており、2024年中の商業化を目指し、新しいAIロボットの基準確立を目指しています。
🔧 ソフト・ハードウェアの協調:開発チームが重要なブレークスルーを達成し、S1は賢い「脳」と敏捷な「体」を備えています。
6、OpenVoice V2版リリース 音声スタイルを細かく制御可能に
OpenVoice V2版は、革新的な音声クローン技術であり、参照発言者の声を正確に複製し、複数の言語の音声を生成できます。このバージョンは、より高品質のオーディオとネイティブの多言語サポートを備え、MeloTTS技術を搭載し、商用利用も無料で可能です。技術手法には、音声スタイルと言語のデカップリング設計、基本的な発話者TTSモデルと音色変換器、トレーニング戦略とデータ処理が含まれます。

【AiBase要約:】
✨ 正確な音色クローン: OpenVoiceは、参照音色を正確にクローンし、複数の言語の音声を生成できます。
🔧 柔軟な音声スタイル制御: ユーザーは、音声の感情、アクセント、リズム、ポーズ、イントネーションを詳細に調整し、パーソナライズされた音声出力を実現できます。
🌐 高効率な計算性能: OpenVoiceは、高性能を維持しながら、計算コストを大幅に削減します。
公式サイト:https://research.myshell.ai/open-voice
プロジェクトアドレス:https://top.aibase.com/tool/openvoice
独自のボイスロボットを作成:https://myshell.ai/
7、インテル第1四半期業績好調
インテルの第1四半期の売上高は127億ドルに達し、前年同期比で9%増加しました。これは、コンピューティング、人工知能、エッジ製品が牽引した結果です。インテルは新しいGaudi3 AIアクセラレータを発表し、競合他社のNvidiaとAMDに挑戦し、人工知能分野で進歩を遂げています。インテルはAI PC製品の投入を加速しており、2024年末までに4000万台以上のAI PCの出荷量を見込んでいます。
【AiBase要約:】
⭐ インテルの第1四半期の売上高は127億ドルに達し、前年同期比で9%増加しました。
⭐ インテルは新しいGaudi3 AIアクセラレータを発表し、競合他社のNvidiaとAMDに挑戦し、人工知能分野で進歩を遂げています。
⭐ インテルはAI PC製品の投入を加速しており、2024年末までに4000万台以上のAI PCの出荷量を見込んでいます。
8、テック大手エンジニアの給与を大公開:OpenAIエンジニアの年収は90万ドル
テック大手の企業では、エンジニアの年収は数百万ドルに上り、OpenAIのエンジニアの年収は90万ドルに達します。企業によってエンジニアの給与水準は異なりますが、いずれも100万ドルを超えています。上級職に昇進すると、エンジニアの年収は数百万ドルに達します。人工知能分野の人材は、その知識ゆえに高額な報酬を得ています。
【AiBase要約:】
⭐️ OpenAIエンジニアの年収は90万ドル
⭐️ Google、Apple、Facebook、Microsoftなどの企業のエンジニアの給与は、いずれも100万ドルを超えています。
⭐️ エンジニアが上級職に昇進すると、年収は数百万ドルに達します。
9、IntrinsicAnything:画像の照明を調整し、物体の材質を維持
この記事では、生成モデルを用いて材料を学習し、最適化プロセスを標準化する方法を紹介することで、未知の静止照明条件下で撮影されたポーズ画像における物体の材質復元精度を高めます。研究者らは、拡散反射と鏡面反射の着色項のモデルを基礎として、粗いものから細かいものへのトレーニング戦略を採用することで、安定した正確な材質復元結果を実現しました。

【AiBase要約:】
⭐ 生成モデルを用いて材料を学習し、最適化プロセスを標準化することで、精度を高めます。
⭐ モデルは拡散反射と鏡面反射の着色項に基づいており、精度が向上します。
⭐ 粗いものから細かいものへのトレーニング戦略を採用することで、安定した正確な材質復元結果を実現します。
詳細リンク:https://top.aibase.com/tool/intrinsicanything
10、Align Your Steps:少ないステップ数で高品質な結果を維持
この記事では、「Align Your Steps(歩調を合わせる)」という新しい方法を紹介しています。これは、深層学習分野における拡散モデル(DM)のサンプリング計画を最適化し、生成プロセスの効率と品質を向上させることを目的としています。厳格な定量的実験を通じて、最適化された計画が画像生成ベンチマークテストにおいて画像品質を大幅に向上させ、テキストから画像への生成やビデオ生成にも適用できることがわかりました。

【AiBase要約:】
✨ サンプリング計画を最適化することで、生成モデルの効率と品質を向上させます。
🔧 画像やビデオなど、さまざまなデータ合成ベンチマークテストに適用できます。
🚀 ユーザーフレンドリーなプラグアンドプレイ型の最適化計画アプリケーションを提供し、生成プロセスの安定性と品質を向上させます。
詳細リンク:https://top.aibase.com/tool/align-your-steps
11、新しいID保持プロジェクトPuLID:画像の背景、光線、スタイルなどが高度に一致
PuLIDは、ID保持効果を高め、元のモデルへの影響を最小限に抑えることを目指す新しいID保持プロジェクトです。その主な利点には、高度な一貫性、多機能性、高忠実度、安定性、正確性があり、幅広い用途があります。PuLIDの発表は、技術革新を推進し、独自の利点と価値を示すでしょう。PuLIDの発表を待ち望み、技術分野における輝かしい成果を期待しましょう。

【AiBase要約:】
🔍 高度な一貫性:身元情報の追加前と後で、画像の背景、光線、レイアウト、スタイルなどの要素が一致しています。
🛠 多機能性:スタイルの変更、IPの統合、アクセサリの変更、属性の編集、IDの混合など、さまざまな操作をサポートし、強力な機能と効果を発揮します。
🔒 高忠実度:比較調整により、カスタムIDを維持しながら高忠実度を維持し、ユーザーにより多くの可能性と選択肢を提供します。
詳細リンク:https://top.aibase.com/tool/pulid
12、体育教師がAIで校長の声をクローン化して報復、逮捕
この記事では、メリーランド州ボルチモア郡の体育教師、ダリエン・ダリエン氏が、人工知能の音声クローンサービスを使用して、パークスビル高校の校長を陥れた事件を報じています。この事件は、人工知能技術の悪用リスクを示しており、個人情報セキュリティとプライバシー保護に対する社会の関心を高めています。
【AiBase要約:】
🔍 AIによる校長の音声クローン事件:体育教師ダリエン氏が偽の録音作成に関与したとして逮捕されました。
⚠️ リスク警告:人工知能の音声クローン技術の悪用が社会的な懸念を引き起こし、OpenAIは一般ユーザーによるプラットフォームの使用を制限しています。
🔒 プライバシー保護:立法者は、個人情報がテクノロジー企業によって無許可で使用されることを防ぐための法律制定に努めています。
