调查大家什么时候会使用64位处理器

JUST · 发表于 2005-6-1 23:14:37

具有64位计算能力的处理器对于执行ChinaPI有非常高的效率。估计ChinaPI在64与32位平台上的执行效率之比约为10：1
当然，我会尽量对32位平台做优化，缩小其与64位平台的差距。
我现在希望知道多少人会在近期使用64位平台，这将关系到项目部署的时间。
谢谢！

JUST · 发表于 2005-6-1 23:16:53

选项少了一条：三年以上

JUST · 发表于 2005-6-1 23:18:45

我选“三年之内”

去年刚配的机器，下一台估计要2年后了，那时64位平台应该普及了

samchoi · 发表于 2005-6-3 12:59:48

怎么不能投票的呢？

hackerboy · 发表于 2005-6-3 16:19:15

ChinaPI进展怎么样了？

agentcn · 发表于 2005-6-3 19:01:06

提示: 作者被禁止或删除内容自动屏蔽

JUST · 发表于 2005-6-3 22:20:12

hackerboy 在 2005-6-3 04:19 PM 发表:

ChinaPI进展怎么样了？

感谢你的关注！

最近一直在做计算核心的优化
现在32位平台的代码每秒可以做10^7次核心计算（老P4 1.5G DDR266 512MB）
完成整个项目大约需要2*10^16次核心计算
我预计参加项目的CPU为500个（比较乐观的估计），这样平均每个CPU需要计算1200小时（假设每秒做10^7次核心计算）
我希望对它做进一步的优化，使效率至少再提高一倍

我手头没有64位平台，从AMD64的指令周期上看，效率大概是32位平台的10倍

不久我将放出一个测试，统计参与测试的CPU效率

[ Last edited by JUST on 2005-6-5 at 15:27 ]

Snake_SH · 发表于 2005-6-6 02:17:48

JUST 在 2005-6-3 10:20 PM 发表:

感谢你的关注！

最近一直在做计算核心的优化
现在32位平台的代码每秒可以做10^7次核心计算（老P4 1.5G DDR266 512MB）
完成整个项目大约需要2*10^16次核心计算
我预计参加项目的CPU为500个（比较乐观的估计 ...

我觉得为SSE2好好优化一下，这个计算量还是扛得下的。64位运算现阶段象征意义大于实际意义。

airwolfliu · 发表于 2005-6-6 16:43:04

年底就换

JUST · 发表于 2005-6-6 17:33:25

Snake_SH 在 2005-6-6 02:17 AM 发表:

我觉得为SSE2好好优化一下，这个计算量还是扛得下的。64位运算现阶段象征意义大于实际意义。

我目前核心有两个版本：
用SSE2的效率反而低于不用SSE2的

一次核心计算实质是计算(a*b)mod c
a,b,c都是64bit，a*b只用算出低64bit，所以用SSE2反而有一些无效操作
我问了很多人，他们都说不太清楚在32位平台上应该怎样算
我自己设计了一种算法，还是比较高效的

目前版本在CeleronD上平均每次核心计算使用的CPU周期：
用SSE2和FPU：108个（已经经过精心优化）
不用SSE2（用最基础的32位指令和FPU）：84个（还没有作进一步优化）

如果使用AMD64，大概是75个（从datasheet里直接加的，实测应该更低）

有SSE3的大概可以再减少5个周期

总的来说，用AMD64大概能快20%，前面说10倍确实多了点

比较令我费解的是，piHEX说用了1.2m个CPU时就完成了计算
我看过他的代码，用的周期肯定比我多，而且那时的CPU主频也就500MHz

JUST · 发表于 2005-6-6 22:17:02

最新优化的结果：
有SSE3：54个周期
无SSE（只用最基础的32位指令和FPU）：70个周期

用现在这个算法，基本上是极限了

在CD325（2.53G OC 3.0G）每19秒完成10^9个核心计算

Snake_SH · 发表于 2005-6-7 03:11:40

其实P4的NetBurst微架构对SSE2指令运算效率很高，不管是P-M还是A64可能在其他项目完胜P4，但在SSE2下是P4完胜。简单直接的对比用Prime 95就可以了。

JUST · 发表于 2005-6-7 13:48:06

Snake_SH 在 2005-6-7 03:11 AM 发表:

其实P4的NetBurst微架构对SSE2指令运算效率很高，不管是P-M还是A64可能在其他项目完胜P4，但在SSE2下是P4完胜。简单直接的对比用Prime 95就可以了。

是的

prime95做大整数乘法，用SSE2会很快
不过ChinaPI的核心计算用SSE2会有很多无效计算

目前使用32位一般指令+FPU+SSE3一次核心计算平均需要44个周期（CeleronD）
以目前的算法，已经近乎极限了

我将尝试32位一般指令+FPU+SSE3+SSE2的模式，用ALU和SSE2交替进行计算
有可能平均周期会更少一点

kiss890 · 发表于 2005-6-16 10:30:05

AMD 64位处理器我今年就要配了..要配就配最好的

xwnewsxw0111 · 发表于 2005-6-17 01:10:36

据说下一代龙芯也是64位的哦~

		自动登录	找回密码
密码			新注册用户

agentcn agentcn 当前离线积分 299 UID 5684 在线时间小时最后登录 1970-1-1 头像被屏蔽	发表于 2005-6-3 19:01:06 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
	【Collatz Conjecture】优化程序，支持 x86 SSE CPU 指令集，以及 Windows 系统下 AMD GPU，和 Linux 系统下 AMD & Nvidia GPU
	回复使用道具举报