如何优雅地测量GPU CUDA Kernel耗时?(二)- 精确测量 背景 上文介绍了kernel常用的测量方法,而实际应用中,还会遇到其他的问题,比如: 1. 为什么同样的输入,测量的耗时存在较大差距? 2. 怎样才能精确的测量kernel耗时? 问题 我们看以下以下常见代码,仅仅做了linear操作: def test(): a_size = (20, 8192) b_size = (5120, 8192) ev… 2024-10-26 17:30 | 大模型与GPU编程 940 字 | 10 分钟