CUDAコードは不要！H100で33％〜50％の高速化を達成したFlash Attentionの著者による新作が話題に

最新の報道によると、Flash Attention の共同著者である Tri Dao は、プリンストン大学の2人の博士課程生と共同で、QuACK という新しいカーネルライブラリをリリースしました。注目すべきは、彼らが Python と CuTe-DSL を使用して開発したことで、CUDA C++ のコードは一切使っていない点です。この革新は従来のプログラミングフレームワークを打ち破り、強力な H100 グラフィックカード上で PyTorch の torch.compile や Liger などのライブラリよりも33〜50％も高速化する結果を出しました。

Tri Dao は、メモリ集約型のカーネルが効率的に動作することは「秘密」ではなく、いくつかの重要な詳細を正確に処理することに依存していると述べました。彼は、現代のアクセラレータのスレッドとメモリ階層構造の理解が非常に重要であると強調しました。GPU性能最適化の進展とともに、Pythonベースのドメイン固有言語である CuTe-DSL を利用することで、開発者はより使いやすい環境でパフォーマンスの大幅向上を実現できるようになりました。

この成果は、多くの業界専門家から注目を集めています。NVIDIA CUTLASS チームのシニアアーキテクトである Vijay はこれを称賛し、CuTe-DSL の設計が Tri Dao のような専門家にとって GPU の効率的な動作を簡単に実現可能にしていると強調しました。彼はまた、今年中にこれに関連する興味深い内容がさらに公開される予定であることを明かしました。一方、PyTorch チームのメンバーである Horace He もこのイノベーションに強い関心を示し、特に長期間のシーケンス処理において大きな利点があると考えています。

多くの開発者に恩恵をもたらすため、QuACK の作成者たちは詳細なチュートリアルを書きました。このチュートリアルでは、具体的なステップとコードが紹介されており、誰でも直接利用できるようにしています。記事では、GPUでのモデルトレーニングや推論プロセスで効率的な動作を達成するには、計算集約型カーネルだけでなく、メモリ集約型カーネルの最適化も考慮しなければならないと強調しています。これまでの研究では、行列乗算やアテンションメカニズムの最適化は非常に成熟していますので、今回の研究はメモリ集約型カーネルに焦点を当てています。

作成者らは、メモリ集約型カーネルの算術強度が低いため、トランザクション量（データ転送量）に強く依存すると説明しています。GPUのメモリ階層構造およびハードウェアの特性を巧みに活用することで、メモリ集約型カーネルのパフォーマンスをほぼ「光速」レベルまで引き上げることに成功しました。

国連関係機関がAI難民の仮想人物を公開　避難者の問題への認識を高めるため

国連大学の研究チームは、スーダンの難民アミナと武装勢力のアブドゥラという2人のAI仮想人物を開発し、対話形式を通じて避難者危機に対する公衆の認識を高めることを目的としている。このプロジェクトは学術チームによる実験的な取り組みであり、国連の公式プロジェクトではない。研究者はこれを寄付活動に使用することを考えていたが、テスト参加者の多くからは否定的な反応があり、現実の難民自身が自分の声を上げることができるはずだと指摘された。現在、関連するウェブサイトは正常にアクセスできなくなっている。（139文字）

PixVerse拍我AIに多キーフレーム生成機能が登場

7月11日、世界中のユーザー数が6000万を突破したAI動画制作プラットフォーム「パーウェイAI（PixVerse）」は大きな機能アップデートを実施しました。最初と最後のフレームモジュールに「多キーフレーム生成」機能が追加され、これによりAI動画制作は単一のスナップショットから「ストーリー的表現」への新たな段階へと進化しました。ユーザーは現在、ウェブ版の最初と最後のフレーム機能を通じて最大7枚の画像をキーフレームとしてアップロードでき、AIがフレーム間の意味関係を自動的に解析し、スマートに流れのある動きやシーンの変換経路を作成します。この技術的な突破により、静止画面が動的に表現されるようになりました。

Perplexity CEOがKimi K2モデルを称賛、後続のトレーニングを行う可能性も

アメリカのAI企業PerplexityのCEOは、月之暗面が新たにリリースしたKimi K2トランズパラメータオープンソースモデルを公的に称賛し、そのモデルに基づいてトレーニングを行うかもしれないと述べた。Kimi K2は混合エキスパートアーキテクチャを採用しており、コード生成、スマートエージェント、数学的推論などのタスクで優れた性能を発揮しており、複数のベンチマークテストでリードを維持している。Perplexityは以前にはDeepSeek R1モデルを使用していたが、今回の声明は技術協力を探求し、AI製品の発展を推進しようとしていることを示している。Kimi K

CUDAコードは不要！H100で33％〜50％の高速化を達成したFlash Attentionの著者による新作が話題に

関連推奨

国連関係機関がAI難民の仮想人物を公開　避難者の問題への認識を高めるため

PixVerse拍我AIに多キーフレーム生成機能が登場

Perplexity CEOがKimi K2モデルを称賛、後続のトレーニングを行う可能性も

工業情報部は2025年の世界人工知能大会で「国際人工知能オープンソース協力イニシアチブ」を発表する

映画級TTSの魔法が登場！IndexTTS2でゼロサンプルクローン＋感情制御。吹き替え界の革命的な進展！

CUDAコードは不要！H100で33％〜50％の高速化を達成したFlash Attentionの著者による新作が話題に

関連推奨

国連関係機関がAI難民の仮想人物を公開 避難者の問題への認識を高めるため

PixVerse拍我AIに多キーフレーム生成機能が登場

Perplexity CEOがKimi K2モデルを称賛、後続のトレーニングを行う可能性も

工業情報部は2025年の世界人工知能大会で「国際人工知能オープンソース協力イニシアチブ」を発表する

映画級TTSの魔法が登場！IndexTTS2でゼロサンプルクローン＋感情制御。吹き替え界の革命的な進展！

国連関係機関がAI難民の仮想人物を公開　避難者の問題への認識を高めるため