一项突破性技术实现了CUDA内核的自动编写,显著提升GPU计算性能——相较PyTorch原生编译器`torch.compile`,其加速比达2.11倍。该技术依托新开源的CUDA Agent,在权威GPU内核优化基准KernelBench上表现卓越,展现出强大的自动化调优能力。它融合AI编译与底层硬件感知,将传统依赖专家经验的CUDA优化流程大幅简化,为高性能计算与AI训练提供了更高效、可复现的内核生成方案。
CUDA优化AI编译GPU内核KernelBenchtorch.compile
2026-03-04