メタが革新的なモデルAU-Netsを発表し、テキスト処理の方法を変革

AIbase基地

AIニュースで公開 · 1 分読む · Jul 24, 2025

大規模言語モデル（LLM）の分野において、テキストデータの分解は常に重要な研究テーマです。従来のトークン化技術、例えばバイトペアエンコーディング（Byte Pair Encoding）は、通常、テキスト処理前に固定された単位に分割し、それに基づいて静的な語彙リストを構築します。この方法は広く使用されていますが、限界もあります。トークン化が完了すると、モデルの処理方法は柔軟に調整できず、低リソース言語や特殊な文字構造を持つテキストに対しては効果が不十分であることが多いです。

これらの問題を解決するために、Metaの研究チームはAU-Netという革新的なアーキテクチャを発表しました。AU-Netは、自己回帰的なU-Net構造により、従来のテキスト処理パターンを変革し、直接元のバイトから学習し、バイトを柔軟に単語や語句、さらには最大4つの単語の組み合わせにまとめ、多層的な順序表現を形成することができます。

AU-Netの設計は、医療画像セグメンテーションの分野で知られるU-Netアーキテクチャからインスピレーションを得ています。収縮パスと拡張パスという独自の構造を持ち、収縮パスは入力のバイトシーケンスを圧縮し、より高次の意味ユニットに統合して、テキストの全体的な意味を抽出します。一方、拡張パスはこれらの高次の情報を段階的に復元し、元のシーケンス長に戻しながら、局所的な詳細情報を融合させ、モデルがさまざまなレベルでテキストの重要な特徴を捉えることを可能にします。

AU-Netの収縮パスは複数の段階に分けられています。最初の段階では、モデルは直接元のバイトを処理し、計算の実行可能性を保つために制限された注目メカニズムを使用します。次の段階では、モデルは単語境界でプーリングを行い、バイト情報から単語レベルの意味情報を抽象化します。さらに第三段階では、2つの単語間でプーリング操作を行い、より広範囲の意味情報を捉え、テキストの意味理解を強化します。

拡張パスは圧縮された情報を段階的に復元し、多線形アップサンプリング戦略を採用することで、各位置のベクトルがシーケンス内の相対位置に基づいて調整され、高次の情報と局所的細部の融合が最適化されます。また、ジャンプ接続の設計により、復元中に重要な局所的細部情報を失うことがなくなり、モデルの生成能力と予測精度が向上します。

推論フェーズでは、AU-Netは自己回帰的な生成メカニズムを採用し、生成されたテキストが一貫性があり、正確であることを保証しながら、推論効率も向上させます。この革新的なアーキテクチャは、大規模言語モデルの発展に新しい考え方を提供し、より高い柔軟性と適用性を示しています。

オープンソースの場所: https://github.com/facebookresearch/lingua/tree/main/apps/aunet

ポイント:
- 🚀 AU-Netアーキテクチャは、自己回帰方式を用いて、バイトを動的に組み合わせて多層的な順序表現を形成します。
- 📊 収縮および拡張パスを採用し、全体的な意味情報と局所的な細部の効果的な融合を確保します。
- ⏩ 自己回帰生成メカニズムにより、推論効率を向上させ、テキスト生成の一貫性と正確性を保証します。

アリババがAIグラスを発表するとの情報。2つのバージョンでエコシステムを深く統合し、大衆市場を狙う

アリババは今週、自社開発の初のAIグラスを発表する予定である。音声アシスタントやリアルタイム翻訳などの機能を統合し、高徳や支付宝などのアリエコシステムに深く接続されている。製品はクアルコムと恒玄の2つのチップ構造を採用し、通常版と表示機能（AI＋AR）付きのバージョンがある。これはアリババがAI事業を統合した後の初の製品であり、前ハウェイのアーキテクトが研究開発を率いている。業界ではアリババがエコシステムの優位性を活かして現在のAIグラス市場の課題を突破し、製品を大衆市場に広める可能性が高いと考えている。小米や百度などの巨頭が参入していることから、2025年はAIグラスの発展において重要な節目となるだろう。

アマゾン・上海AI研究所の解散：公式コメントで苦渋の決定を発表、従業員の移行を全力で支援

アマゾンクラウドテクノロジーアメリカズ上海AI研究所は7月23日に解散を発表した。この研究所はAWSの最後の海外研究機関である。首席アプリケーションサイエンティストの王敏捷（ワン・ジェミン）は微信の友人圈でこの出来事を確認し、6年間のチームリーディング経験を振り返った。アマゾンのスポークスパーソンは、これは組織評価と戦略調整に基づく人員削減の決定であり、イノベーションへのリソース配分の最適化を目指すものだと述べた。このニュースは業界に広く注目を集めている。

1クリックで授業用アニメーションを生成！Fogsight AIが教育プレゼンテーションを革新。抽象的な概念を瞬時に理解できるアニメーションに

FogsightはLLMを基盤としたAIアニメーションエンジンであり、抽象的な概念を1クリックで授業用アニメーションに変換できます。キーワードを入力するだけで、30〜90秒の両語音声付き、映画級のビジュアル効果を持つ短編動画を生成可能です。数学や物理などの科目の授業に適しています。コアの利点は、全プロセスをスマートに構成・編集し、制作のハードルを下げることです。ローカル配置とオープンソースカスタマイズをサポートしていますが、複雑なシナリオの処理には改善の余地があります。Animakerなどの競品と比較して、Fogsightは教育向けのコンセプト駆動型の生成に重点を置いています。現在、教室やオンライン学習で使用されています。

360、スマートグラスとAIレコーダーを発表予定　周鴻祎：グラスに表示機能を搭載

2025（第24回）中国インターネット大会で、360社の会長である周鴻祎氏はインタビューで、同社が今月、AIハードウェア新製品2種類――AIレコーダーとスマートグラスを発表する予定であることを明らかにした。周氏はこの2製品の特徴を詳しく紹介し、AIレコーダーは単なる会議転記ツールではなく、さまざまなシナリオに応じた知能分析機能を持ち、要点を正確に要約することで、ユーザーにより効率的な記録体験を提供すると語った。また、この機能は近日、ナノAI検索でアップデートされて適用される予定であると述べた。

アップルのAIチーム内の騒動：自社開発とオープンソースの夢が崩れ、第三者の大規模モデルに助けを求める可能性

アップルAIチーム、オープンソース計画否認で内部対立。フェデリギ副社長が既存モデルで十分と判断、iPhone版性能差懸念も。Siri更新延期しOpenAIなど外部連携検討。プライバシー優先と技術革新のジレンマが浮き彫りに。....