淘天グループと愛橙科技は、大規模言語モデルのトレーニング性能向上、トレーニングコスト削減、そしてLLaMAコミュニティとの互換性を目的とした大規模モデルトレーニングフレームワーク「Megatron-LLaMA」をオープンソース化しました。このフレームワークは、32枚のGPUを用いたトレーニングにおいて176%の高速化を実現し、ネットワーク不安定性に対しても高い耐性を示します。Megatron-LLaMAは、最適な設定の自動選択、モデル構造変更への対応、そして様々なハードウェア環境下での最高性能トレーニングソリューションに焦点を当てています。
関連推奨
ネットファストフードは精神的な飢えなのか?AI生成記事が人間の創作を全面的に圧倒
AIが生成した英文記事の数が人間を上回り、2記事に1つが機械によるものに。低品質なコンテンツ「Slop」がSNSに溢れ、人間のオリジナル文章が希少となり、思考の境界が静かに崩れつつある。....
チューリングテストの結果が明らかに:GPT-4.5の勝率は人間を上回り、AIは完璧な嘘をつくことを学んだ
イギリスの数学者チューリングが1950年に提唱したチューリングテストの想定は、76年後、カリフォルニア大学サンディエゴ校の研究チームによって『米国科学アカデミー紀要』に掲載された論文で実証された。認知科学者であるカメロン・ジョーンズ教授とベン・バーゲン教授は、厳密な古典的な三人称チューリングテストを通じて、初めて明確な実証データを提供し、コンピューターサイエンス史における画期的な瞬間を意味している。
アリババクラウドの「バイレン」が大幅アップグレード:スタック全体を開放し、モデルのスーパーマーケットを構築
アリババクラウドは5月20日のフォーラムで発表し、「バイレン」の大規模モデルプラットフォームがオープンエコシステムを強化し、複数の第三部門のトップクラスのモデルを接続し、テキスト、画像、ビデオおよびマルチモーダル生成などの分野をカバーしています。この動きは、バイレンがアリババ独自の千問モデルの展示台から、業界の主流モデルを含むAIモデルスーパーマーケットへと転換したことを示しています。初回に接続されたモデルのマトリクスは豊富で多様です。
OpenAIの共同創設者であるアンドレイ・カルパティがAnthropicに参加し、次世代LLMの開発を推進
OpenAIの共同創業者で元テスラ自動運転責任者のAndrej Karpathy氏がAnthropicに加入し、AI人材の主要競合への流出が加速。同氏は大規模言語モデルの基盤アーキテクチャと深層統合研究に注力する。....
AI大モデルが基層执法に実装され、ドウバオが警務捜査の速度を加速
湖北省潜江市警察は、工事現場での軽油盗難事件の捜査中、監視カメラも目撃者もいない「ゼロ手がかり」の現場で、ByteDance傘下のAI大規模言語モデル「豆包」を活用。現場から採取した1440mmの重要な車輪間距離データをモデルに入力し、事件の突破口を開いた。これは大規模言語モデルが地域社会のガバナンスやスマート警察活動に浸透する実戦的価値を示している。....
