最近、百度は文心大モデル4.5シリーズのオープンソースを正式に発表し、10種類のモデルをリリースしました。これには、47Bや3Bのアクティベーションパラメータを持つ混合エキスパート(MoE)モデル、および0.3Bパラメータの密なモデルが含まれます。今回のオープンソースにより、事前学習された重みが完全に公開され、推論コードも提供されているため、百度が大規模モデル分野で大きな進展を遂げたことを示しています。

これらの新しいモデルは、飛 paddle星河コミュニティやHugging Faceなどのプラットフォームからダウンロードおよびデプロイできます。また、百度スマートクラウドの千帆大モデルプラットフォームでも関連するAPIサービスが提供されています。この取り組みにより、百度は騰訊、アリババ、字節跳動に次いで、国内でオープンソースに積極的に参加するもう一つのテクノロジー企業となりました。これは、大規模モデルアプリケーション時代における百度の決意を示しています。

メタバース サイエンスフィクション サイバーパンク 絵画 (5) 大モデル

図の出典:画像はAIによって生成され、画像のライセンスを提供するMidjourney

今年2月から、百度は文心大モデル4.5シリーズのリリース計画を明らかにし、6月30日にオープンソースすることを予告していました。今回のオープンソースリストには文心大モデル4.5Turboというアップグレード版は含まれていませんが、開発者間で議論を巻き起こしています。多くの開発者は、小パラメータバージョンのモデルがメモリ制限のある設定に適しており、パフォーマンスも優れていると考えており、DeepSeek V3やアリババのQwenなど他の大規模モデルと競争できる可能性があると見ています。

文心大モデル4.5シリーズは、ネイティブなマルチモーダル基礎大モデルであり、複数のテストで競合製品であるGPT-4oを上回る性能を示しています。このモデルはテキストだけでなく、写真やビデオなどの多様な視覚情報も処理でき、マルチモーダル理解と生成の強力な能力を示しています。

百度が文心大モデル4.5シリーズをオープンソースした背景には、主に3つの技術革新があります。まず第一に、マルチモーダル異質MoEの事前学習により、モデルがテキストと視覚モードの情報を効果的に捉えることができることです。第二に、高速なトレーニングと推論を実現する効率的なインフラストラクチャです。第三に、特定のモード向けの後学習により、モデルが多様な実際の応用においてより良いパフォーマンスを発揮できるようにしています。