最近、商湯科技は上海AIラボなどの機関と共同で、大規模言語モデルInternLM-123Bを発表しました。世界51の評価データセットによるテストで、12項目で1位を獲得し、総合力は世界2位にランクイン、GPT-4を上回る指標もあります。これは主に、商湯科技の強力なデータ処理能力と、大規模なSenseCore計算基盤によるものです。技術の進化速度においても、商湯科技は業界をリードしており、わずか半年でInternLM-104Bを123Bにアップグレードしました。InternLM-123Bの強力なパフォーマンスは、中国と海外における大規模モデル分野の差を縮めるものと言えるでしょう。商湯科技が技術革新の速度を維持できれば、GPT-4レベルに到達する最初の国産大規模モデルになる可能性が高いです。
関連推奨
コードリファクタリングの不安を告別:アリババがPage Agentを開発し、大規模モデルがウェブページの基本的な論理を理解できるように
アリババがPage Agentをオープンソース化し、ブラウザ自動化の考え方が変わりました。これは大規模モデルがウェブページ構造を直接解析するもので、外部のスクリーンショットやプロトコル駆動に頼らず、変化にダイナミックに対応し、「新しいホイールを造る」課題を解決します。
メイドゥーの大規模モデルエコシステムの調整:ダオバオの全面的な使用制限、自社開発のLongCatシステムの推進
メイドゥーは内部で字節傘下のダオバオの大規模モデルの使用を制限し、業務チームが呼び出し状況を自主的に確認するよう求めた。保持が必要な場合は、必要性の説明および移行計画を提出する必要がある。この動きは、メイドゥーが自社開発のAIソリューションへの傾斜を加速させていることを示しており、インフラストラクチャの選択が調整されている。
性能が2倍以上向上:NVIDIAがNemotron-Labs-TwoTower拡散言語モデルを発表
NVIDIAがオープンソース化したNemotron-Labs-TwinTower拡散言語モデルは、「ツインタワー」アーキテクチャで自己回帰モデルの逐次デコードのボトルネックを打破。生成タスクを2つのサブネットワークに分割し、一方を凍結することで並列処理によるテキスト生成スループットを向上。大規模な合成タスクに効率的な新たな解法を提供。....
知能代替のGPT-5?Qwen 3.6 27Bの評価ではローカルモデルが先端水準に達した
Qwen3.6シリーズは、ローカルLLMに妥協が必要という認識を覆す。MacBook Max M5 128GB上で27Bモデルを8ビットGGUF量子化で動作させ、驚異的な効率を実証。体験を犠牲にせず汎用知能を満たす強力なツールであり、ローカルLLMの新時代を告げる。....
商業化の道が見えてきた:月の暗面の黄震昕がKimiの差別化戦略を解説
大規模モデル産業は実用化とコスト競争の段階に入り、月之暗面Kimiの商業化が明確に。BtoB責任者・黄震昕氏は、単なる工学的積み重ねではなく、基盤アーキテクチャの自主革新を堅持すると表明。Kimiは高性能モデルを志向し、世界的な計算資源不足で運用コストが高騰する中でも、このハイパフォーマンス路線を継続する方針。....
