关于GPU计算时，explorer.exe的CPU占用率升高的问题

cuihao · 发表于 2010-2-6 21:38:46

以前说过这个问题，XP下9400GT计算CC时，explorer.exe的CPU使用能达到5～10%左右，机器卡得厉害。
换了cicikml版主送来的9600GSO，计算CC，explorer.exe的CPU使用显著降低，只有0～1%了，机器反应速度也快不少。
用9600GSO计算PG的AP26，这个貌似GPU占用比较高，也相应卡一些，explorer.exe占用5%左右CPU。

这么看来，explorer进程cpu占用会随GPU资源减少而升高，显卡越好，这种效应就会越少。大家也注意一下，有没有这个问题。

使用烂卡的同学们，挂机CPU+GPU计算时，记得干掉explorer进程，减少CPU浪费。

BiscuiT · 发表于 2010-2-7 00:07:10

win7 下到是 system 进程吃不少。。

还有个 audiodg.exe ..（Windows 硬盘设备图形隔离）（what？

refla · 发表于 2010-2-7 07:40:37

N卡有这个问题，改用A卡后，好像再没出现这个问题了。

cuihao · 发表于 2010-2-7 08:04:46

那就臭了，system干不掉

。

BiscuiT · 发表于 2010-2-7 09:41:15

cicikml · 发表于 2010-2-7 12:22:26

原帖由 refla 于 2010-2-7 07:40 发表
N卡有这个问题，改用A卡后，好像再没出现这个问题了。

正是这个现象，说明了A卡对应用程序硬件加速广度和深度，没有N卡渗透深。
不过我这两天开始用A卡了，而且我决定要做A饭

refla · 发表于 2010-2-7 22:05:51

是的，NV化整为零的设计方案比传统的 SIMD 架构更有弹性，因此也更具通用性。

但我不解的是，同样是 GPUGrid，有些 WU 就会卡，可有些却不会卡。

要回归 BOINC 了吗？

cicikml · 发表于 2010-2-8 00:01:55

感觉比较卡的WU，同时线程数大。这类任务在遇到流处理器规模庞大的显卡时，卡的感觉就会减轻，如果遇到8400GS这类显卡就完蛋了，性能急剧衰减（和流处理器数量呈非线性）。

实际上“卡”，是线程上下文切换的问题，因为让GPU在后台运算的同时跑前台图形渲染程序，肯定会不流畅，如果切换时间大于一定长度，你的眼睛就会发现。和CPU一样，GPU也可以利用上下文切换(Context Switching)来实现支持多任务(multi-taksing)操作。这个操作主要是由GigaThread线程调度器和SP单元配合实现的，当然应该离不开Shared memory，实际上是流水线效率的提升。

我个人理解是，上下文切换，就是通过线程调度器+各种临时资源的挂起能力来完成动态的线程分配，一旦某线程当前无法完成就把它挂起而不用等着，等他可以被完成了再送去其他单元进行处理。增强的上下文切换能力需要更大的Shared memory，AMD那边称为LDS(Local Data Share)，更强的线程调度器，其他的我暂时想不到那么深。

再说到现在的N/A两家的产品，NV不断充实周边资源，使用更激进的架构，而AMD不断扩大流处理器规模，都是为了更好的隐藏延迟。GT200架构已经可以控制SMIT活用跳转来在实现线程在不同的sm之间进行跳跃。命令单元为multi-thread模式，能够执行Out-of-Order指令，而当处理warp命令流时则是In-Order，而根据NV架构设计师John Nickolls的介绍，实际warp中的线程也能够支持Out-of-Order。

这些观点疏漏不少，既然有人提到我也就努力说两句，不管对错全当学习了，期待有人来指教。

我开始做A饭，实际上是想通过学习，寻求A卡架构中优秀的成分

refla · 发表于 2010-2-8 14:24:28

好的，预祝你成功，到时候一定要跟我们分享啊

根据我的理解，要发掘 A 卡的优势可能要从更广阔的范围去理解 A 卡的设计理念。因为在 AMD 的 Fasion 计划中，ATi 仅仅被定义为一个 Accelator(加速器)，而非 NV 所设想的计算中心。另外，考虑到 AMD/ATi 推崇的 OpenCL 中，CPU 与 GPU 将被同时调度，我总觉得这与 ATi 认为优化应该交由软件（指编译器）实现的观念，有某种暗合之意。。。。

cuihao · 发表于 2010-2-8 16:28:11

咦...大家拓展这么多？

cicikml · 发表于 2010-2-8 18:09:27

在编程人员的眼中，A卡还是不错的，就是实际执行效率低点。毕竟不能拿SIMD+VLIW和Gigathread+标量化执行单元去硬碰。
RV770现在已经衍生出很多小核心给经济型用户使用如4830，但GT200至今没有一款产品可以这样演化，这就是大核心的障碍。
费米和R800（5870）在通用计算方面，也都是面向 OpenCL 做编程设计的，初级编程者都会觉得两者差不多。当然你要让A卡发挥更大的运算能力，要非常努力地去写程序，因为VLIW的效率依赖于指令系统和编译器的效率。

refla · 发表于 2010-2-8 19:49:17

效率上的差异，也许在确定下追求目标的时候，就已注定。。。。

我认为， NV 追求的是在通用计算的基础上兼顾 GPU，而 ATi 则是在实现 GPU 的前提下，兼顾通用计算。由于目标不同，导致了 NV 必须坚持走大核心的道路。不然，当流处理器少于一定数量时，性能的损失是相当可观的。比如，GPUGrid 就声明，只有在不少于 96 个流处理器的 GPU 上，才能获得较为理想的性能。

从设计实现上看， R600 的设计方案还是非常成功的，因为她很好地遵循了“简单就是美”的工程原则。毕竟，能够简单地通过扩充规模来达到性能翻番，这本身就说明其基础设计的优秀性。同时，这也从一个侧面印证了 AMD 为什么称 GPU 为“加速器”，而不是“计算器”了：通过 R600 优秀的伸缩性，为系统灵活配置大大小小的“加速器”，以适应不同的应用需求。

由于设计理念不同，两者的直接可比性不大。所以，我觉得仅从架构上看，不能充分挖掘 ATi 的闪光点。

卡西莫多 · 发表于 2010-2-8 20:49:28

个人感觉：Intel是想要CPU取代GPU，比如i系列，里面加入了GPU的功能，AMD是想GPU取代CPU，都在坚持自己的正确。

我是个没有道理的A饭，只是觉得如果没了AMD，Intel就更买不起了，所以绝对要支持，另外就是A卡的型号性能区分比较容易，不过这几年也和N学坏了

refla · 发表于 2010-2-8 21:37:59

比 NV 清晰多了，240还不如 9600GT，而250 又比 9800 高出了一截。。。。

BiscuiT · 发表于 2010-2-8 21:43:47

新的附加值太棒了～以前昂贵的多屏宝，现在免费享用～～

		自动登录	找回密码
密码			新注册用户

关于GPU计算时，explorer.exe的CPU占用率升高的问题

回复 #2 BiscuiT 的帖子

回复 #4 cuihao 的帖子

回复 #6 cicikml 的帖子

回复 #7 refla 的帖子

回复 #9 refla 的帖子

AMD与Intel之争

回复 #13 卡西莫多的帖子

回复 #12 refla 的帖子

关于GPU计算时，explorer.exe的CPU占用率升高的问题

回复 #2 BiscuiT 的帖子

回复 #4 cuihao 的帖子

回复 #6 cicikml 的帖子

回复 #7 refla 的帖子

回复 #9 refla 的帖子

AMD与Intel之争

回复 #13 卡西莫多 的帖子

回复 #12 refla 的帖子

回复 #13 卡西莫多的帖子