找回密码
 新注册用户
搜索
查看: 50623|回复: 65

调查大家什么时候会使用64位处理器

  [复制链接]
发表于 2005-6-1 23:14:37 | 显示全部楼层 |阅读模式
具有64位计算能力的处理器对于执行ChinaPI有非常高的效率。估计ChinaPI在64与32位平台上的执行效率之比约为10:1
当然,我会尽量对32位平台做优化,缩小其与64位平台的差距。
我现在希望知道多少人会在近期使用64位平台,这将关系到项目部署的时间。
谢谢!
单选投票, 共有 41 人参与投票

投票已经结束

47.03% (95)
3.47% (7)
3.47% (7)
8.91% (18)
9.41% (19)
27.72% (56)
您所在的用户组没有投票权限
回复

使用道具 举报

 楼主| 发表于 2005-6-1 23:16:53 | 显示全部楼层
选项少了一条:三年以上
回复

使用道具 举报

 楼主| 发表于 2005-6-1 23:18:45 | 显示全部楼层
我选“三年之内”

去年刚配的机器,下一台估计要2年后了,那时64位平台应该普及了
回复

使用道具 举报

发表于 2005-6-3 12:59:48 | 显示全部楼层
怎么不能投票的呢?
回复

使用道具 举报

发表于 2005-6-3 16:19:15 | 显示全部楼层
ChinaPI进展怎么样了?
回复

使用道具 举报

头像被屏蔽
发表于 2005-6-3 19:01:06 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

 楼主| 发表于 2005-6-3 22:20:12 | 显示全部楼层
hackerboy  在 2005-6-3 04:19 PM 发表:

ChinaPI进展怎么样了?


感谢你的关注!

最近一直在做计算核心的优化
现在32位平台的代码每秒可以做10^7次核心计算(老P4 1.5G DDR266 512MB)
完成整个项目大约需要2*10^16次核心计算
我预计参加项目的CPU为500个(比较乐观的估计),这样平均每个CPU需要计算1200小时(假设每秒做10^7次核心计算)
我希望对它做进一步的优化,使效率至少再提高一倍

我手头没有64位平台,从AMD64的指令周期上看,效率大概是32位平台的10倍

不久我将放出一个测试,统计参与测试的CPU效率

[ Last edited by JUST on 2005-6-5 at 15:27 ]
回复

使用道具 举报

发表于 2005-6-6 02:17:48 | 显示全部楼层
JUST  在 2005-6-3 10:20 PM 发表:

感谢你的关注!

最近一直在做计算核心的优化
现在32位平台的代码每秒可以做10^7次核心计算(老P4 1.5G DDR266 512MB)
完成整个项目大约需要2*10^16次核心计算
我预计参加项目的CPU为500个(比较乐观的估计 ...


我觉得为SSE2好好优化一下,这个计算量还是扛得下的。64位运算现阶段象征意义大于实际意义。
回复

使用道具 举报

发表于 2005-6-6 16:43:04 | 显示全部楼层
年底就换
回复

使用道具 举报

 楼主| 发表于 2005-6-6 17:33:25 | 显示全部楼层
Snake_SH  在 2005-6-6 02:17 AM 发表:

我觉得为SSE2好好优化一下,这个计算量还是扛得下的。64位运算现阶段象征意义大于实际意义。


我目前核心有两个版本:
用SSE2的效率反而低于不用SSE2的

一次核心计算实质是计算(a*b)mod c
a,b,c都是64bit,a*b只用算出低64bit,所以用SSE2反而有一些无效操作
我问了很多人,他们都说不太清楚在32位平台上应该怎样算
我自己设计了一种算法,还是比较高效的

目前版本在CeleronD上平均每次核心计算使用的CPU周期:
用SSE2和FPU:108个(已经经过精心优化)
不用SSE2(用最基础的32位指令和FPU):84个(还没有作进一步优化)

如果使用AMD64,大概是75个(从datasheet里直接加的,实测应该更低)

有SSE3的大概可以再减少5个周期

总的来说,用AMD64大概能快20%,前面说10倍确实多了点

比较令我费解的是,piHEX说用了1.2m个CPU时就完成了计算
我看过他的代码,用的周期肯定比我多,而且那时的CPU主频也就500MHz
回复

使用道具 举报

 楼主| 发表于 2005-6-6 22:17:02 | 显示全部楼层
最新优化的结果:
有SSE3:54个周期
无SSE(只用最基础的32位指令和FPU):70个周期

用现在这个算法,基本上是极限了

在CD325(2.53G OC 3.0G)每19秒完成10^9个核心计算
回复

使用道具 举报

发表于 2005-6-7 03:11:40 | 显示全部楼层
其实P4的NetBurst微架构对SSE2指令运算效率很高,不管是P-M还是A64可能在其他项目完胜P4,但在SSE2下是P4完胜。简单直接的对比用Prime 95就可以了。
回复

使用道具 举报

 楼主| 发表于 2005-6-7 13:48:06 | 显示全部楼层
Snake_SH  在 2005-6-7 03:11 AM 发表:

其实P4的NetBurst微架构对SSE2指令运算效率很高,不管是P-M还是A64可能在其他项目完胜P4,但在SSE2下是P4完胜。简单直接的对比用Prime 95就可以了。


是的

prime95做大整数乘法,用SSE2会很快
不过ChinaPI的核心计算用SSE2会有很多无效计算

目前使用32位一般指令+FPU+SSE3一次核心计算平均需要44个周期(CeleronD)
以目前的算法,已经近乎极限了

我将尝试32位一般指令+FPU+SSE3+SSE2的模式,用ALU和SSE2交替进行计算
有可能平均周期会更少一点
回复

使用道具 举报

发表于 2005-6-16 10:30:05 | 显示全部楼层
AMD 64位处理器我今年就要配了..要配就配最好的
回复

使用道具 举报

发表于 2005-6-17 01:10:36 | 显示全部楼层
据说下一代龙芯也是64位的哦~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-3-29 20:12

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表