写CUDA到底难在哪?

2025-06-22 18:35:10

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
黄一鸣为什么敢承认孩子是王思聪的?

黄一鸣为什么敢承认孩子是王思聪的?

生下孩子两年后,捞女的代价来了。 6月是黄一鸣女儿闪闪两周...

2025-06-26
数据库不就是增删改查一些数据吗?研发一个数据库到底难在哪了?

数据库不就是增删改查一些数据吗?研发一个数据库到底难在哪了?

开发数据库可太容易,不就 CURD 么,10 行不到就解决了...

2025-06-26
人常说女人味,到底是个什么味?

人常说女人味,到底是个什么味?

OPPO新机发布会上,产品经理莫妮卡这个动作,我觉得很有女人...

2025-06-26
杨幂论文一年间 AI 率从 0 飙至 91%,为什么会这样?AI 查重到底有没有统一标准?

杨幂论文一年间 AI 率从 0 飙至 91%,为什么会这样?AI 查重到底有没有统一标准?

结论:现在市面上的所有AI查重工具都不靠谱。 尤其是有个怪现...

2025-06-26
MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响?

MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响?

我测试了下做PPT这个需求,并且用Manus做了一样的事,结...

2025-06-26