無需CUDA代碼！H100加速提升33%-50%，Flash Attention作者新作引發熱議

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 11, 2025

據最新報道，Flash Attention 的共同作者 Tri Dao 與普林斯頓大學的兩位博士生聯合推出了一個名爲 QuACK 的新內核庫，令人矚目的是，他們僅使用 Python 和 CuTe-DSL 開發，完全沒有涉及 CUDA C++ 代碼。這一創新不僅打破了傳統的編程框架，還在強大的 H100顯卡上實現了比 PyTorch 中的 torch.compile 和 Liger 等庫快33%-50% 的速度提升。

Tri Dao 表示，內存密集型的內核達到高效運作並不是一個難以實現的 “祕密”，而是依賴於對一些關鍵細節的精準處理。他強調，現代加速器的線程與內存層級結構的理解是至關重要的。隨着對 GPU 性能優化的不斷深入，利用 CuTe-DSL 這一基於 Python 的領域特定語言，開發者們能夠在更友好的環境中實現性能的大幅提升。

這項成果迅速引起了衆多業內專家的關注。英偉達 CUTLASS 團隊的資深架構師 Vijay 對此表示讚賞，並強調 CuTe-DSL 的設計使得像 Tri Dao 這樣的專家能夠輕鬆地實現 GPU 的高效運行。他還透露，今年將會有更多關於這方面的精彩內容發佈。同時，PyTorch 團隊成員 Horace He 也對這一創新表示了極大的興趣，尤其認爲對於長序列處理有着顯著的優勢。

爲了讓更多開發者受益，QuACK 的作者們還撰寫了一篇詳細教程，介紹了實現的具體步驟及代碼，便於大家直接使用。文章強調，要在 GPU 的模型訓練和推理過程中達到高效運行，既要優化計算密集型內核，也要兼顧內存密集型內核。在過去的工作中，矩陣乘法和注意力機制的優化已經非常成熟，因此本次研究將焦點放在了內存密集型內核上。

作者解釋，內存密集型內核的算術強度較低，因此吞吐量更依賴於每秒傳輸的數據量。通過巧妙利用 GPU 的內存層級結構以及硬件特性，作者們成功將內存密集型內核的性能提升至近乎 “光速” 的水平。

馬蜂窩“AI路書”全面開放，AI旅行助手再添實用功能

馬蜂窩推出"AI路書"等智能旅行工具，全面升級出境自由行體驗。"AI路書"採用"主動提問-需求校準-精準生成"模式，基於海量數據生成個性化行程方案。同時上線三大實用功能：AI代訂日本餐廳、多語種實時翻譯和菜單拍照識圖，解決境外溝通難題。AI旅行助手"AI小螞"支持7種語言實時翻譯，還能通過截圖自動完成餐廳預訂。這些創新功能覆蓋從行程規劃到目的地服務的全鏈路，大幅提升旅行便利性。

騰訊混元Hunyuan-A13B模型API上線

近日，騰訊雲官網正式上線了騰訊混元A13B模型的API服務，輸入價格定爲每百萬Tokens0.5元，輸出價格則爲每百萬Tokens2元，這一舉措迅速在開發者社區中引發了熱烈反響。作爲業界首個13B級別的MoE（混合專家）開源混合推理模型，Hunyuan-A13B以其總參數80B、激活參數僅13B的精簡設計，實現了與同等架構領先開源模型相媲美的效果，同時在推理速度上更勝一籌，性價比顯著提升。這一創新不僅降低了開發者獲取先進模型能力的門檻，更爲AI應用的廣泛普及奠定了堅實基礎。

Manus AI官網及社交媒體現變動，中國用戶或受影響

通用AI公司Manus調整中國業務，裁員並將核心技術團隊遷往新加坡。中國區原有約120名員工，公司稱此舉是爲提升運營效率、專注核心業務。官網顯示"地區不可用"，取代此前"中文版開發中"提示，官方微博和小紅書賬號內容也已清空，顯示其中國市場策略發生重大轉變。

墨刀AI重磅上線：輸入想法30秒生成高保真、可編輯原型

墨刀AI推出30秒快速原型生成功能，支持多終端適配和對話優化。用戶可通過文本、草圖等多種輸入方式生成高保真可編輯原型，並支持多輪對話調整。AI能智能解析上傳的草圖、線框圖等，自動生成界面。提供雙模式編輯、自動文檔生成和代碼聯動功能，覆蓋電商、社交等多場景需求，顯著降低原型製作門檻，提升產品設計效率。

無需CUDA代碼！H100加速提升33%-50%，Flash Attention作者新作引發熱議

相關AI新聞推薦

馬蜂窩“AI路書”全面開放，AI旅行助手再添實用功能

騰訊混元Hunyuan-A13B模型API上線

谷歌DeepMind開源GenAI Processors：一鍵構建實時AI工作流

Manus AI官網及社交媒體現變動，中國用戶或受影響

墨刀AI重磅上線：輸入想法30秒生成高保真、可編輯原型

Mistral AI 發佈 Devstral2507:爲代碼中心語言建模而生