アップル FastVLM のリリース:5分で85倍高速な視覚AIデータをデバイスに残さずに体験

AIbase報道 - Appleが数か月前にリリースしたFastVLMという視覚言語モデルは現在、一般公開されています。ユーザーはApple Siliconチップを搭載したMacで直接この革新的な技術を体験できます。

FastVLMは、ほぼ即時に高解像度の画像処理を提供できる視覚言語モデルであり、AppleがApple Silicon向けに設計したオープンなMLフレームワークであるMLXに基づいて構築されています。他の同様のモデルと比較して、FastVLMは動画キャプション処理速度が85倍向上し、サイズは3倍以上小さくなっています。

Apple、アップル発表会、iPhone、Apple Watch

多プラットフォーム対応、ブラウザで直接体験

Appleがプロジェクトを完成させた後、FastVLMはGitHubでオープンソース化され、Hugging Faceプラットフォームにも登場しました。ユーザーは今や、複雑なインストールプロセスなしで、ブラウザから軽量版のFastVLM-0.5Bバージョンを直接ロードして、その強力な機能を体験できます。

実際のテストでは、16GB M2 Pro MacBook Proでモデルのロードに数分かかることが確認されました。ロード後、モデルはユーザーの外見、背景環境、顔の表情、視界内のさまざまな物体をリアルタイムで正確に説明できます。

豊富なスマートインタラクティブ機能

このモデルは、ユーザーが以下のように要求できるさまざまな事前設定されたヒントをサポートしています:

見た風景を一文で説明する
服の色を識別する
見えるテキストの内容を読み取る
感情と動作を分析する
手に持っている物を識別する

上級ユーザーは仮想カメラアプリケーションと組み合わせて、モデルが複雑なマルチシーンの動画コンテンツを即時に詳細に説明する様子を観察できます。

ローカライズ実行のプライバシー上の利点

FastVLMの大きな特徴の一つは、完全にブラウザのローカルで実行されることです。データは決してデバイスから離れることなく、オフラインでも使用可能です。この設計により、ウェアラブルデバイスや補助技術アプリケーションに対して理想的な解決策を提供します。軽さと低遅延の特性により、より広範な用途の基盤が築かれています。

業界記録を破る！段階星が50億元を超える資金調達に成功　インチ氏が正式に社長に就任

上海段階星は50億元を超えるB+ラウンドの資金調達を完了し、国内の大モデル分野で1年間で最大額の単一資金調達記録を樹立した。今回の資金調達には複数のトップクラスの産業投資機関が参加しており、国産大モデルの競争が資本と人材の両方でさらに強化され始めたことを示している。

アップル、AIのペンダントを開発中：AirTagほどのサイズで、次世代のウェアラブルデバイスの新形態に挑む

アップルは独立したAIペンダントデバイスを開発しており、スマートウォッチの既存の考え方を打ち破ろうとしている。この製品は純粋なAIハードウェアを定位し、スマホのアクセサリーではなく、デザインはアップルの極簡主義の美学を引き継ぎ、AirTagに似た形態である。

ナデラがダボスで発言：AIのトークンが新たなグローバル通貨に、エネルギーコストが国家のAI競争力を決定

マイクロソフトCEOのナデラはダボスフォーラムで、AIの「トークン」が新しい種類のグローバル通貨となり、エネルギーコストが各国のGDP成長に直接影響を与えると述べた。これはAI競争が国家のエネルギー戦略とインフラのレベルにまで上昇したことを意味し、計算力は電力によって駆動される実体資源となり、地域の経済的潜在力を決定する要素となる。

ChatGPTが落ち着いた：OpenAIが年齢検出システムを導入し、未成年者が不適切なコンテンツにアクセスすることを厳しく制限

OpenAIは、ChatGPTの有料版に「年齢予測」機能を追加しました。これは18歳未満のユーザーを識別し、対応する保護を提供するためのものです。このモデルは従来の年齢入力に依存せず、アカウントの存在期間、アクティブ時間帯、および長期的な相互作用パターンなどの行動シグナルを分析して知能的に判断します。

未来が来た！アリババクラウド展示会で登場したスマートチェス選手とテニスコーチAI

アリババクラウドの通義インテリジェントハードウェア展で、サンクステクノロジーが開発した「ワンラオ」ロボットが注目を集めた。このロボットは将棋をプレイできるだけでなく、人間のように学習やリアルタイムでの会話もでき、子どもたちに楽しく興味深い学習体験を提供する。