AIbase報道 - Appleが数か月前にリリースしたFastVLMという視覚言語モデルは現在、一般公開されています。ユーザーはApple Siliconチップを搭載したMacで直接この革新的な技術を体験できます。
FastVLMは、ほぼ即時に高解像度の画像処理を提供できる視覚言語モデルであり、AppleがApple Silicon向けに設計したオープンなMLフレームワークであるMLXに基づいて構築されています。他の同様のモデルと比較して、FastVLMは動画キャプション処理速度が85倍向上し、サイズは3倍以上小さくなっています。

多プラットフォーム対応、ブラウザで直接体験
Appleがプロジェクトを完成させた後、FastVLMはGitHubでオープンソース化され、Hugging Faceプラットフォームにも登場しました。ユーザーは今や、複雑なインストールプロセスなしで、ブラウザから軽量版のFastVLM-0.5Bバージョンを直接ロードして、その強力な機能を体験できます。
実際のテストでは、16GB M2 Pro MacBook Proでモデルのロードに数分かかることが確認されました。ロード後、モデルはユーザーの外見、背景環境、顔の表情、視界内のさまざまな物体をリアルタイムで正確に説明できます。
豊富なスマートインタラクティブ機能
このモデルは、ユーザーが以下のように要求できるさまざまな事前設定されたヒントをサポートしています:
- 見た風景を一文で説明する
- 服の色を識別する
- 見えるテキストの内容を読み取る
- 感情と動作を分析する
- 手に持っている物を識別する
上級ユーザーは仮想カメラアプリケーションと組み合わせて、モデルが複雑なマルチシーンの動画コンテンツを即時に詳細に説明する様子を観察できます。
ローカライズ実行のプライバシー上の利点
FastVLMの大きな特徴の一つは、完全にブラウザのローカルで実行されることです。データは決してデバイスから離れることなく、オフラインでも使用可能です。この設計により、ウェアラブルデバイスや補助技術アプリケーションに対して理想的な解決策を提供します。軽さと低遅延の特性により、より広範な用途の基盤が築かれています。
