大規模言語モデル(LLM)は自然言語処理(NLP)分野で著しい進歩を遂げ、テキスト生成、要約、質疑応答などのアプリケーションで大きな成功を収めています。しかし、LLMはトークンレベルの処理(一度に1単語ずつ予測する)に依存しているため、いくつかの課題も抱えています。この手法は、通常は文やアイデアといったより高い抽象レベルで動作する人間のコミュニケーション方法とは対照的です。



大規模言語モデル(LLM)は自然言語処理(NLP)分野で著しい進歩を遂げ、テキスト生成、要約、質疑応答などのアプリケーションで大きな成功を収めています。しかし、LLMはトークンレベルの処理(一度に1単語ずつ予測する)に依存しているため、いくつかの課題も抱えています。この手法は、通常は文やアイデアといったより高い抽象レベルで動作する人間のコミュニケーション方法とは対照的です。


日本のデータ科学者である本田崇人がオープンソースプログラミング言語「Sui」を発表し、大規模言語モデルが生成するコードの正確性を解決することを目指しています。100%の正確性を実現できると主張しています。そのデザインコンセプトは日本の美意識「粋」からインスピレーションを得ており、簡潔さと不要な要素の排除を強調しています。コア原則には、ゼロの文法エラー率を保証することと、変数に数字を使用することが含まれます。
日本出身のデータサイエンティストである本田崇人が新しいプログラミング言語Suiを発表しました。その設計思想は「日本の美(粋)」に由来し、極限まで簡素化することを目指しています。この言語は文法エラーを排除し、変数名を数字で置き換えることによって、各行のコードが独立して実行可能になるよう設計されています。これにより、大規模なモデルが生成するコードにおいてよくある文法や名前付けの混乱、文脈依存の問題を解決し、コード生成の質を向上させることを目的としています。
南洋理工大学が開発したEHRStructは、大規模言語モデルの電子カルテ処理能力を包括的に評価する初のベンチマークです。11の核心タスクと2200サンプルで医療データの理解・情報抽出を測定し、医療AIの発展を促進します。....
アリババ技術研究院がLLaDA2.0シリーズを発表し、16Bおよび100Bバージョンを含む。そのうち100Bバージョンは、業界初の100Bパラメータの離散拡散型大規模言語モデルである。このモデルは拡散モデルのスケーラビリティの限界を突破し、生成品質と推論速度を大幅に向上させ、分野の発展に新たな方向性を提供する。
アリの通義Qwenチームが開発したSAPOは、大規模言語モデルの強化学習におけるポリシー最適化の不安定さを解決する。従来の厳格なクリッピング手法と異なり、SAPOは更新幅を適応的に調整し、訓練の安定性と効率を向上させる。....