对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
{dede:pagebreak/}
三只羊是不是被人做局了?
你最满意的10款 PC 软件是什么?
请问买个nas,能够直接把游戏装进去吗?
如何评价黄子华?
请问您见过最惊艳的sql查询语句是什么?
伊朗为什么不买中国战机,却坚持四十年用老旧的苏联米格29、美国F14雄猫战斗机?
大家知道为什么艺术家都喜欢画女人体吗?
微软为什么还要推blazor?
武磊在西班牙巴塞罗那进行了二次手术,是因为华山医院运动医学科技术不行吗?
在mac OS上,到底是safari好用还是edge好用?
snipaste怎么安装?
为什么男生都不喜欢173身高的女生啊?
你和你老婆是怎么认识的?
杨幂论文一年间 AI 率从 0 飙至 91%,为什么会这样?AI 查重到底有没有统一标准?
SwiftUI 是不是一个败笔?
为什么腰肌劳损这么难治?