シンガポールの人工知能計画AISGは、新世代の大規模言語モデルQwen-Sea-Lion-v4を発表しました。このモデルは、ベースとなる技術をMetaのLlamaからアリババの「通義千問」Qwen3-32Bに全面的に切り替えました。また、東南アジア言語の総合評価基準であるSea-Helmにおいて、パラメータ数が2000億未満のオープンソースモデルで第1位を獲得しました。

切り替えの理由  

- 言語対応: Llamaはインドネシア語、タイ語、マレー語などの低資源言語に対して性能が悪かったため、Qwen3は119種類の言語・方言をカバーし、36兆のトークンで事前に学習しており、多言語アーキテクチャにより後続のトレーニングのハードルを低下させています。

- パッキング最適化: 新しいモデルは欧米で一般的な「文ごとのパッキング」ではなく、バイトペアエンコーディング(BPE)を使用しています。これにより、タイ語やミャンマー語の文字をスペースなしで分割できるようになり、翻訳精度と推論速度が大幅に向上しています。

- システム要件に優しい: 量子化されたモデルは、32GBのメモリを持つコンシューマー向けノートPCでも動作可能であり、東南アジアの多くの中小企業が持つ計算リソースの不足に対応しています。

トレーニングデータ  

AISGは1000億の東南アジア言語のトークンを提供し、内容の濃度は13%で、Llama2の26倍です。アリババは「高度な後処理トレーニング」を通じて地域知識を注入し、モデルがシンガポール式英語やマレー式英語などの混合言語をよりよく理解できるようにしました。

パフォーマンス結果  

Sea-Helmのランキングによると、Qwen-Sea-Lion-v4はインドネシア語、ベトナム語、タイ語、マレー語のタスクにおいて、元のLlamaベースラインより平均8.4%優れており、ドキュメントレベルの推論と跨言語サマリーの指標ではともに第1位を獲得しました。

オープンソースと実用化