大規模言語モデルが「1ビット時代」に突入しました。マイクロソフトと中国科学院大学が提案したBitNet b1.58手法は、パラメータを三進数で表現することで、モデルのメモリ使用量を根本的に削減し、計算プロセスを簡素化します。この手法は、様々なサイズのモデルで性能比較が行われ、速度向上とメモリ使用量の削減が確認され、ネット上で多くのユーザーから注目を集め、活発な議論を巻き起こしています。
関連推奨
日本の科学者がSuiプログラミング言語を発表 LLMのコード記述を100%正確に可能にと宣言
日本のデータ科学者である本田崇人がオープンソースプログラミング言語「Sui」を発表し、大規模言語モデルが生成するコードの正確性を解決することを目指しています。100%の正確性を実現できると主張しています。そのデザインコンセプトは日本の美意識「粋」からインスピレーションを得ており、簡潔さと不要な要素の排除を強調しています。コア原則には、ゼロの文法エラー率を保証することと、変数に数字を使用することが含まれます。
日本データサイエンティストがゼロエラーのプログラミング言語Suiを発表、大規模モデルによるコード作成の正確性100%を主張
日本出身のデータサイエンティストである本田崇人が新しいプログラミング言語Suiを発表しました。その設計思想は「日本の美(粋)」に由来し、極限まで簡素化することを目指しています。この言語は文法エラーを排除し、変数名を数字で置き換えることによって、各行のコードが独立して実行可能になるよう設計されています。これにより、大規模なモデルが生成するコードにおいてよくある文法や名前付けの混乱、文脈依存の問題を解決し、コード生成の質を向上させることを目的としています。
医療AIの新進展!南洋理工大学が初めての電子カルテ処理評価基準を発表
南洋理工大学が開発したEHRStructは、大規模言語モデルの電子カルテ処理能力を包括的に評価する初のベンチマークです。11の核心タスクと2200サンプルで医療データの理解・情報抽出を測定し、医療AIの発展を促進します。....
アリババがオープンソースのLLaDA2.0を公開、業界初の100Bパラメータ規模の拡散言語モデル
アリババ技術研究院がLLaDA2.0シリーズを発表し、16Bおよび100Bバージョンを含む。そのうち100Bバージョンは、業界初の100Bパラメータの離散拡散型大規模言語モデルである。このモデルは拡散モデルのスケーラビリティの限界を突破し、生成品質と推論速度を大幅に向上させ、分野の発展に新たな方向性を提供する。
アリババ・テンセントが新しい強化学習手法SAPOを公開し、大規模言語モデルをより安定かつ強力に
アリの通義Qwenチームが開発したSAPOは、大規模言語モデルの強化学習におけるポリシー最適化の不安定さを解決する。従来の厳格なクリッピング手法と異なり、SAPOは更新幅を適応的に調整し、訓練の安定性と効率を向上させる。....
