多核革命的希望、风险及影响

BiscuiT · 发表于 2007-6-8 20:52:02

http://publish.it168.com/2007/0607/20070607009901.shtml

作者：谢燕辞洪钊峰编译 2007-06-07

【IT168 专稿】[编者按]今天，随着多核处理器的发展，计算领域正在发生具有革命性影响的转变，本文的主要目的就是要探讨，在这一转变过程中，多核处理器将扮演什么样的关键角色？并试图帮助读者从不同的角度来了解多核处理器的趋势和走向。

为此，文章首先通过SPEC_fp2000和SPECfp_rate2000基准测试，比较了三种CPU设计方案（更小的芯片、增加缓存、增加核心）在性能和性价比方面的不同表现，你将看到，这三种方案各具优劣势。

然后，作者讨论了多核处理器在短期内需要解决的一些问题，如功耗问题、单/多线程性能矛盾、最优核心数量等，为此，作者还对传统的Amdahl 定律进行了适当修改。此外，文章还从技术和市场的角度对多核芯片与RISC SMP进行了比较，作者认为这二者之间存在一定的相似性，而且，64位多核处理器对RISC市场构成了挑战。

最后，作者从长远角度，对未来多核处理器的方向性问题进行了一些探讨，如片上SMP、异构多核、核心过多、内存带宽等问题。

值得一提的是，原文的三位作者John McCalpin、Chuck Moore和Phil Hester是AMD公司的资深技术专家，其中Phil Hester是AMD公司高级副总裁兼首席技术官，负责为AMD的微处理器业务制定架构和产品方面的策略和规划。Hester同时也是AMD技术委员会的主席，负责确保产品开发、整合与工艺等各部门的综合技术能力与产品发展方向一致。由于文章技术性较强，且带有较强的前瞻性，加上编译者水平有限，难免有疏误之处，请读者多多指正。

AMD专家:多核革命的希望、风险及影响-上——三种CPU设计方案

第1页：三种CPU设计方案
第2页：三种方案对CPU性能和成本的影响

AMD专家:多核革命的希望、风险及影响-中——多核处理器发展中的当前问题和短期问题

第3页：功耗问题也很复杂
第4页：单线程性能和多线程性能的矛盾
第5页：多核芯片与RISC SMP的相似性
第6页：X86冲击RISC-打破系统平衡
第7页：小型SMP和大型SMP的性价比差距越..
第8页：多核X86处理器的性价比

AMD专家:多核革命的希望、风险及影响-下——多核处理器发展方向的长期预测

第9页：在芯片上实现SMP系统（SoC，SMP o..
第10页：CPU设计时有更大的灵活度
第11页：异构多核芯片中不仅有CPU，还有GPU
第12页：核心过多带来的问题
第13页：内存带宽是多核系统的瓶颈
第14页：总结与结论

[ 本帖最后由 BiscuiT 于 2007-6-8 20:53 编辑 ]

BiscuiT · 发表于 2007-6-8 23:39:12

三种CPU设计方案比较
多核处理器最初的开发在很大程度上要归功于 CMOS光刻印刷（lithography）工艺的持续进步。众所周知，随着CPU核心的尺寸/带宽的不断提升，很快就会造成投资回报的递减。因此，当核心的尺寸工艺收缩到一个小尺度上后，出于成本方面的考虑，芯片制造商通常的选择有如下三种：

• 生产更小的芯片
• 增加大量缓存
• 增加更多核心

注意，增加更多内存带宽也是一种方法，但会导致处理器芯片之外的成本也会大幅增加，如修改主板（可能需要更多的PCB层）、增加DIMM插槽等。正是因为这些额外成本以及插槽兼容性方面的顾虑，增加更多内存带宽这种方法不在本文的讨论范围。
针对上述三种方案，我们建立了SPEC测试模型，图 1 和图 2显示了相关的性能和性价比指标，假定光刻印刷精度提高30%（即尺寸缩减50%），单核频率可提高17%，双核频率则需降低17%，以保持相同的功耗水平。注意，SPECfp_rate2000基准测试包含14个独立的测试。测试指标包括：最小加速比（minimumspeedup）、中值加速比（median speedup）、几何平均加速比（geometric meanspeedup）和最大加速比（maximum speedup）。对于双核处理器方案，要同时估算单核(uni) 和双核(mp) 的加速比。

如图1所示，我们针对上述三种方案进行了SPECfp_rate2000性能评估，假定光刻印刷精度提高30%（尺寸缩减50%），相应地，单核芯片频率提高 17%，双核芯片频率降低17%。其中，“更小芯片”方案的芯片尺寸是参考芯片的½大小，“大缓存”和“双核”两个方案的芯片尺寸以及功耗要求都与参考芯片相同。注意，“大缓存”方案的最大加速比应该是+156%，图1没有显示完整。

图 2则针对三种方案的SPECfp_rate2000进行性价比评估，也是假定光刻精度提高30%（尺寸缩减50%），相应地，单核芯片频率提高 17%，双核芯片频率降低 17%。为进行性能和性能价格比分析，我们假设：

 双路“裸”系统（带有磁盘、内存和网络接口，但没有 CPU）成本为 1,500 美元。
 基本CPU 配置为 2.4 GHz 单核处理器，配备 1 MB L2 缓存，成本为 300 美元。
 Die设定为CPU 核心和L2 缓存约各占一半，其他片上功能限制在Chip全部区域的小区间中。
 “小型芯片”配置为 2.8 GHz 单核心处理器，配备 1 MB L2 缓存，成本为 150 美元。
 “大缓存”配置为 2.8 GHz 单核心处理器，配备 3 MB L2 缓存，成本为 300 美元。
 “多核”配置为 2.0 GHz 双核心处理器，每个核心配备 1MB L2 缓存，成本为 300 美元。

下面，我们依次看看这三种方案对CPU性能和成本的影响：

1）生产更小的芯片
显然，更小、更便宜的芯片加上适度的频率提升，在性能和性价比方面能为用户带来适度的价值。如图1，处理器价格的下降可以将系统整体成本降低 14%（1,800 美元Vs. 2,100 美元），而 17% 的频率提高可以带来 0- 14%的性能提升，中间值和几何平均值为 8%-9%。结合这两种因素，性价比可提升17%-33%，其中间值和几何平均值为 27%-28%，如图2所示。
2）增加大量片上缓存（On-Chip Cache）
与其他方案相比，增加大量缓存可以带来更灵活的性能提升空间。如果将 L2 缓存从 1 MB 提高到 3 MB ，性能提升幅度为0%-127%，其中间值为 0%，几何平均值为11.8%。如果CPU频率提升17%，同时缓存大小也增加，则可以带来更多的收益——这两个因素相结合后，性能提升可达0%-156%，中间值为11.5%，几何平均值为22.5%。注意，这里假设芯片的成本与参考系统是相同的，因此性价比与纯性能的提升比率相同。
3）增加CPU 核心
对许多工作负载来说，增加核心可以改善吞吐量（throughput），其代价是需要适当降低频率（如17%），以满足功耗/散热方面的要求。这里我们假设50%的尺寸缩减可以容纳2个CPU核心，跟参考芯片一样，每个核心带有1MB L2缓存，而且成本也相同。跟参考平台相比，在运行单一进程时，性能会降低 0% - 15%，中间值和几何平均值为 -10% 到-11%。
但如果我们使用第二个核心来运行第二个代码副本，那么系统吞吐量可以提高 0%-54%，中间值和几何平均值为 29% - 32%。这里，我们假定芯片的成本与参考系统相同，则性价比与纯性能的提升比率也相同。
上面三个方案提供了大量令人困扰的性能和性价比指标——70 个相对值。就算将每次SPEC基准测试的14个性能值减少到3个（最小、几何平均、最大），我们仍然需要面对9个性能值和12个性价比值（其中9个与性能值相同）。可见，要想充分弄清楚这些指标，并做出合理的设计决策，并不是件容易的事。不过，这三个方案都各自具有明显的优势和不足：

当然，设计什么样的CPU，除了考虑性能和性价比方面的因素外，还有许多因素需要考虑——如市场占有率、销售收入、利润、市场影响力等等，要支持芯片厂商的市场目标、业务模式和竞争策略。
在所有这些情况中，性能的变化取决于基准系统上内存性能跟CPU 性能的比值。随着内存总可用带宽的提升，大缓存的价值将减小，而多核的优势将提高。相反，相对较低的内存带宽会使大缓存更为关键，而会大大降低增加CPU核心所带来的吞吐量。
对于缓存友好型的SPECint_rate2000基准测试，以2.2 GHz运行的IBM e326服务器上的结果显示：在频率相同的情况下，将每芯片上核心数增加一倍，可以使吞吐量提高65%到100%（几何平均值为95%）。

BiscuiT · 发表于 2007-6-8 23:42:28

1）功耗问题也很复杂
跟性能一样，功耗问题也会比你想象的要复杂得多，同样会涉及多个方面。在基于高性能处理器的计算机系统环境中，“功耗”问题可能意味着以下任何一种情况：
• 通过众多超细针脚/焊点传送到芯片的大量电流。（注意：即使在同样的功耗水平下，随着电压下降，电流上升，针脚/焊点内的热阻也将升高。）
• 消除大量热量，以防止Die温度超过阈值，明显缩短产品寿命。
• “热点”问题：芯片局部区域中的功耗密度过高可能将导致局部故障。（注意：若为了保持同样的功耗水平，将晶圆上的处理器内核尺寸减少一半，同时提高频率，则内核中的功耗密度将提高一倍。）
• 为提供计算服务，需要为系统设备提供大量电力——包括电力成本和用电升级成本。
• 消除放置服务器所需基础设施所产生的大量热量——包括电力成本和机房冷却系统升级成本。
• 消除处理器芯片造成的大量热空气，以免影响其他热敏组件（如内存、硬盘等）。
由此可以看出，功耗问题实际上至少与5、6个相关而性质截然不同的技术问题和经济问题有关。

2）单线程性能和多线程性能的矛盾
下面，我们需要进一步探讨的是，如何在保持功耗水平不变的情况下，通过多核心设计来提高CPU的吞吐量和性能。我们知道，在假定其他条件不变的情况下，功耗往往是以CPU主频的平方倍或立方倍增长的，而性能提升却要低于主频的线性增长速度。可见，在主频发展到一定程度，试图继续通过提升主频来提高每瓦特性能的做法会越来越难以凑效。
多核为我们提供了一种新的方法。对于那些可以充分利用多线程的应用负载来说，多核可以极大地提高CPU的每瓦特吞吐量。但是，多核也存在缺陷，就象我们前文讨论过的，这种吞吐量的提升是以牺牲单线程性能为代价的。
为了在一颗芯片上放入更多的内核，一方面，我们可以不断改进平版印刷工艺，以把更多的当前内核放进去，另一种方法就是设计尺寸更小、也更节能的新内核。但问题在于，过去数年来，我们把单线程看得太重要了，使得后一种方法并没得到大规模使用（除了SUN的TI处理器外）。
通过上文的性能模型分析表明，只要我们能够保证CPU内核的功耗下降速度快于峰值吞吐量的下降速度，我们就能够通过无数个高效率的微小核心来获得最优的吞吐量性能。很显然，这样一种系统会使单线程性能很低。
那么，在多核系统中，如何来解决“多线程应用性能提高、单线程应用性能下降”的这种矛盾呢？到底多少个处理器内核才是最优的呢？\
为此，我们可以事先定义好可以接受的最低单线程性能（minimum acceptable single-thread performance），然后对芯片进行优化，在限定的面积和功耗水平下，使其能包含尽可能多的内核。
此外，还有其他一些因素会限定内核的数量。一个因素就是通信（communication）和同步（synchronization），这一点在简单的吞吐量模型中往往被忽视了。而实际情况是，如果你想在一个并行、线程化的应用中使用不只一个内核，就需要某种通信/同步，而且，对于一个固定的工作负载，通信/同步开销是作业所用 CPU 内核数量的单调递增函数（monotonically increasing function）。由此，我们需要对 Amdahl 定律做些简单修改：

其中，T 为解决某计算问题所需的总时间，Ts 是完成串行（非重叠性，non-overlapped）工作所需的时间，Tp是完成所有并行工作所需的时间，N 是并行工作中所使用的处理器数量，To 是每颗处理器的通信与同步开销。To正是传统 Amdahl定律公式中所没有的——随着处理器的增多，总开销也会增加。
在没有引入通信/同步开销的传统标准模型中，总时间T就是处理器数N的一个单调递减函数（monotonicallydecreasing function），会逐渐接近于Ts。而在修改后的公式中，我们很清楚地看到，由于存在通信开销，随着处理器数N的增加，在达到某一临界点后，总时间T就会开始增加。因此，对于一个完全并行的应用 (即Ts=0) 来说，其所需处理器的最优数量是：

比如，假设通信同步开销 To 是并行化时间 Tp 的 1%，那么，我们可以算出：使用 10 个处理器就能获得最大的性能表现。当然，在实际系统设计时，我们还需要权衡其他一些影响性能和性价比的因素。

3）多核芯片与RISC SMP的相似性
我们注意到，在多核芯片与上世纪90年代中繁荣了RISC服务器市场的RISC SMP系统之间，存在着非常有趣的相似现象。在过去的10年中，RISC服务器市场的硬件收入可是达到了2400亿美元。
首先，传统的RISC SMP提供了易于使用、缓存一致（cache-coherent）、共享内存（shared-memory）的应用特性，未来的多核处理器也同样会提供这些价值，不同的是，SMP是在一个单一的芯片上来实现。
其次，二者拥有相似的主内存延迟比率。1995年，SGI POWER Challenge是当时中端市场上最畅销的HPC服务器——笔者之一（McCalpin）就曾买过一台8 CPU的系统，花了40万美元。在1996-1997年间，其CPU主频是90 MHz (11 ns)，主内存延迟接近 1000 ns（即90 个时钟周期）。而到了2007年，一颗AMD四核处理器的主频将超过 2 GHz (0.5 ns)，主内存延迟约为 55 ns（即110 个时钟周期）。比较一下，我们不难发现，主内存延迟的比率是多么惊人的相似，均在100个时钟周期左右。
再次，二者在字节/FLOP上也相似。对于RISC SMP系统来说，能否提供足够的内存带宽是一大挑战。一套配备8颗CPU的SGIPOWER Challenge的峰值浮点运算性能是2.88 GFLOPS，最高内存带宽为1.2 GB/s，即平均每FLOP约 0.42字节。而一颗AMD四核处理器的峰值浮点性能将达到32 GFLOPS，最高内存带宽约12.8 GB/s，平均每FLOP也大约是0.4 字节。

4）X86多核处理器对RISC的冲击
1996年，UNIX 服务器市场的硬件收入超过 220 亿美元，到 2000 年，增加到了近330 亿美元。之后，这块市场一直在下滑，到2006 年，已下滑到了180 亿美元左右。我们认为，主要有以下三大因素导致了UNIX市场的萎缩：
• 越来越难以维持最初使UNIX服务器获得成功的系统平衡；
• 跟中低端的小型RISC SMP不同，大型多路RISC SMP无法降低每处理器的系统价格；
• 更低廉的IA32架构服务器的普及，以及2003年AMD 64架构产品的出现，大大冲击了RISC市场。
那么，具体来说，这三大因素是如何发生作用的呢？

①系统平衡被打破
如前文所述，起初，RISC SMP的主内存延迟大约在100个时钟周期，内存带宽为0.4字节/FLOP。内存延迟在很大程度上跟CPU数量是不相关的，但每颗处理器的带宽会因为配置不同数目的处理器而有所变化。
另外，在应用领域和处理器带宽之间也存在明显的系统相关性：缓存友好型的应用大多采用满配的SMP系统，而高带宽型的应用则配置较少的处理器，甚至是运行在单路系统上。
到了2000年，RISC SMP的主内存延迟大约减少了3倍，而CPU主频却增加了3-6倍。同样，随着系统总线转向多种多样的NUMA架构，每处理器带宽的变化也难以保持一致，情况变得更加复杂。这样一来，过去的系统平衡就逐渐被打破了。

②小型SMP和大型SMP的性价比差距越来越大
为了维持合理的系统平衡，服务器厂商在上世纪90年代中后期，也进行了大量的努力。虽然取得了不错的效果，但代价却是提高了系统的成本。导致成本增加的两大主要因素是为保持缓存一致性所需的片外SRAM缓存（off-chip SRAM cache）和监听系统总线（snooping system bus）。
对于RISC SMP系统来说，为了平衡相对较高的内存延迟，以及降低共享地址（sharedaddress）和数据总线所需的带宽要求，大容量的片外SRAM缓存是至关重要的。但是，当英特尔不再使用标准的片外SRAM缓存之后，这一市场停滞不前了，跟其他电子元器件的发展趋势不同，SRAM的性价比变得越来越糟糕。到2000年，一个大容量的片外SRAM缓存所花费的成本甚至是处理器的好几倍。
不过，对于小型SMP系统来说，由于降低了对内存和地址总线的共享，因此，能够获得相对较低的延迟和较高的每处理器带宽。反过来，小型SMP使用小容量的片外SRAM缓存就可以了。这样一来，小型RISC SMP和大型RISCSMP在每处理器售价（price/processor）方面的差距越拉越大，越来越多的用户开始转向小型SMP集群，以取代大型SMP系统。

③多核X86处理器的性价比
到2000年初，基于X86架构的服务器在性能上开始接近基于专有RISC架构的服务器，而且前者在性价比方面更胜一筹。上述大型SMP向小型SMP集群迁移的趋势，也使得进一步向X86集群转移变得更加容易。随着2003年AMD64架构处理器的推出，向X86迁移也就更加盛行，因为AMD64提供了更好的性能、真64位寻址及整数算法能力。随后，英特尔也推出了EM64T架构，从而使得仅仅在几年的时间里，大多数X86服务器完成了从32位向64位的转变。
当然，这些趋势并不能说明用户对SMP系统不再有兴趣，而是说明，用户对大型SMP系统的性价比变得越来越敏感了。想想看，大型SMP和小型SMP之间的价格差距实在太大了，市场必然会欢迎更便宜的硬件产品。
过去，RISC SMP的发展促使大量ISV对其软件代码进行了并行化（在企业计算和科学计算两个领域都是如此），现在，多核处理器趋势则会进一步刺激更多的软件转向并行化，这些软件通常运行在价格更低廉的小型服务器上。
与上世纪九十年代RISCSMP市场不同的是，今天的多核处理器不再依赖于片外SRAM缓存，而且通过配置，可以避免芯片到芯片（chip-to-chip）之间昂贵的一致性流量（coherence traffic）——既可以通过监听过滤器（snoop filter），也可以简单地使用单路服务器，如SUN的T1/Niagara。

BiscuiT · 发表于 2007-6-8 23:44:33

1）在芯片上实现SMP系统（SoC，SMP on a Chip）
在上世纪90年代中后期，RISC SMP 市场的主流产品是 4路、8路和 16 路系统。这些系统为当时的并行化应用提供了足够的CPU性能，价格也不算高。但现在，我们看到的趋势是，在未来数年内，有望在一块芯片上实现类似的SMP系统，从而挑战传统的RISC市场，对此，几个值得进一步探讨的方向性问题是：
1）在上世纪90年代，RISC SMP开创了UNIX服务器市场，那么，今天的多核芯片能否以同样的方式为并行软件创造出一个新的市场呢？
2）为了有效利用多核处理器芯片，系统架构或编程模式是否需要进行根本性的改变？或者说，在适当增强架构的情况下（如transactional memory），并行应用市场能否实现自我增长？
3）对于绝大多数用户而言，随着芯片上的核心数、可执行的线程数越来越多，还需要更大规模的多路SMP系统吗？
事实上，随着每个芯片上集成的内核数越来越多，用户甚至在单路或双路服务器上，就可以同时混合运行多线程任务和单线程任务——无论是单线程，还是多线程应用，都不会独占全部的CPU核心——这种模式类似于最近10年来大型SMP服务器的应用。另外，CPU核心数的增多，也会促进虚拟化在这些低端多核服务器上的普及应用——每个客操作系统拥有自己专用的核心，同时争抢内存空间、内存带宽、共享缓存和其他共享性资源。

2）CPU设计时有更大的灵活度
随着CPU生产工艺的发展，我们可以在一个芯片中放入越来越多的核心，CPU的设计空间也越来越大，但选择多了，决策也自然就更难了。
双核处理器起初量产时，采用的是90纳米制造工艺，到今年，四核处理器开始采用65纳米工艺。而如果进一步向45纳米切换，我们能把CPU中的核心数增加一倍（8核），采用32纳米，可望继续增加一倍（16核），未来，通过22纳米工艺再增加一倍核心数量（32核）也是切实可行的。
最近的研究表明，无论是从工程设计的角度，还是从应用性能的角度来看，CMP的设计空间都是多维的，有很多种选择。但问题是，由于一个芯片上拥有如此之多的独立“模块”，虽然我们在设计时的灵活度大大提高了，但同时，对性能和性价比指标的考量也就变得更加复杂了。如果每种应用对单线程性能、多线程性能、单线程性价比和多线程性价比都有不同的最优设计方案，那么，要想做出正确的设计决策将更为困难。对于产业界来说，是生产可以量产的标准化产品，还是在某一方面表现最优的独特性产品，将是非常关键的挑战。

3）异构多核芯片中不仅有CPU，还有GPU
术业有分工，对于不同类型的工作负载来说，同构（homogeneous）的多核芯片并不是最好的选择。而实际上，随着设计空间的扩大，我们可以在芯片中放入异构（heterogeneous）的处理器内核，这些不同的内核可能在以下这些参数上有所不同，如基本 ISA、ISA扩展、缓存容量、频率、Issue宽度（Issue width）、乱序功能（Out of Order capability）等。
可见，这种自由度更高的设计带来了无数的可能性，既令人兴奋，又让人畏惧。
当然，多核心处理器将不限于仅包含中央处理单元（CPU）。随着3D图形处理卡在移动、客户端和工作站系统中的广泛应用，进一步将图形处理单元（GPU），或GPU的一部分功能集成到处理器芯片上也是自然而然的，就象AMD 已经发布的“Fusion”计划一样。在未来，其他的异型（非CPU）架构也是合乎逻辑的选择。

4）核心过多带来的问题
短期内，在每个芯片上集成4-8颗CPU内核确实非常让人兴奋，但从长期来看，如果继续在每个芯片上集成32、64、128、256个甚至更多的核心，就会带来额外的挑战。
拿RISC来比较，上世纪90年代后期，RISC SMP市场正是鼎盛的时候，大型系统（8P-64P）的成本非常昂贵，占有的市场份额也很少。单个用户基本不用担心找不到足够多的工作使CPU保持忙碌。相反，未来的多核处理器芯片不会很贵。一个用户能够轻松地负担多个CPU核心，足以满足传统“任务并行化”（占用CPU运行独立的单线程任务）应用所需要的CPU资源要求。
比如，在2004年，一台满配的基于 AMD 或英特尔单核处理器的双路服务器售价一般为 5000 - 6000 美元，拥有5万美元预算的一个科研人员/工程师，可以购买大约 8 台这样的服务器（即总共有16个核心），加上一些存储和网络设备。其实，从2000年左右起，这类系统就开始大面积流行起来，许多用户发现，采用这些系统构成的小规模集群就能满负荷地运行串行作业，或者在一台服务器上运行并行化的应用（使用 OpenMP 或explicit线程）。
如果双路服务器配上16核的CPU，那么，在相同售价和预算的情况下，上述用户买8台服务器就可以拥有多达256个核心。而实际上，却很少有哪个科研人员/工程师有足够多的独立作业需要用到它。如果配上128核的芯片，那么，这8台服务器将能执行2048个线程。可见，对于绝大多数用户来说，编程模式和使用计算机的方式都要发生根本性的变革。
因此，多核处理器开发人员的任务很艰巨，他们必须找到可行的方法，以更容易地利用这么多核心来加速单一作业的效率。对于计算机用户来说，也同样存在巨大的机遇，如果能先于自己的对手充分开发这种并行化机制，就能获得更多的竞争优势。

5）内存带宽是多核系统的瓶颈
多核CPU设计的灵活度，以及功耗的减少，使得未来的处理器能比现在芯片具有更强大的计算性能。但另一方面，相对处理器的性能增长速度，内存带宽的提升要慢的多。虽然DRAM技术通过提高管线能力（pipelining）从根本上改进了内存性能，但这种方法也快要走到头了。而且，在系统电力消耗水平中，内存的功耗也已不容忽视。
历史数据表明，如果一个系统，每GFLOP/s峰值浮点运算所支持的主内存带宽小于0.5 GB/s，就很难在市场上获得成功。比如，一个CPU芯片的峰值要想达到100 GFLOPS并非遥不可及——拥有8个核心，主频为3GHz，每个核心每个时钟周期执行4次浮点运算就可以了。但另一方面，要想为这样的每个处理器芯片配备50 GB/s的内存带宽，却要花费巨大的成本。即便DDR2/3 DRAM 技术能提供1600 MHz的数据传输率（每个 64 位通道 12.8GB/s），要想维持上述内存带宽水平，就需要许多通道——102.4 GB/s 峰值带宽大概需要 8 个通道，这就意味着至少需要8 个DIMM，并需要丢弃类似 40 个出色的缓存，以实现 50% 的利用率。（若内存延迟为 50 ns，则 102.4 GB/s 的延迟带宽为5120 字节，或每 64 个字节延迟 80 个缓存线。所以，共需要约 40 个并发缓存线，以保持 50 GB/s 的目标带宽。）

总结与结论
综上所述，面对多核心处理器带来的巨大机会和挑战，我们才刚刚开始。一个平衡的系统需要考虑成本、价格、功耗、物理尺寸、可靠性以及众多其他属性。而且，有些属性是相互矛盾的，如低成本与高性能、低功耗与高性能，在芯片/系统设计和优化时，需要找到平衡的“最优”设计点。虽然为了保持系统的全面平衡性，加上当前技术的限制，我们起初的步伐不能迈得很大，只能做些适当的革新。但是，多核技术的趋势已经很明朗，未来的工艺技术为我们提供了相当的灵活度，使得我们在设计基于微处理器的计算机系统时，可以在功耗、性能和成本等特性上做出许多完全不同的选择。
对于整个计算产业来说，一个主要的挑战在于，我们是继续制造可量产的标准化产品来满足通用市场需求，还是说，通过创造各种不同的产品，来尽可能地提升性能、每瓦特性能和性价比。而且，现实情况是，随着技术的发展，这两种决策方向之间的矛盾已经越来越突出。
虽然工艺技术的发展将能让我们在CPU中提供更多的核心，但这么多核心能否被我们充分、有效地利用也是一大问题。这也就需要产业界、学术界和计算机用户一起共同努力，为典型应用开发新的可以利用多核的方法，利用片上通信来实现前所未有的、耦合更为紧密的并行机制。

Julian_Yuen · 发表于 2007-6-11 10:33:38

太专业

简单点说，买哪个型号的CPU性价比最高？

BiscuiT · 发表于 2007-6-11 11:06:11

这简单说不了，不同的应用会有不同的最高性价比配置方案

原来多核也不一定是好事，一般家用的话可能还会加剧资源浪费，当然参加分布式计算机就可以解决啦！XD

Julian_Yuen · 发表于 2007-6-11 13:26:39

等下次（放心，肯定在十年之内）换新机的时候，就来找你了。

突然在想，是买个一般的CPU和很NB的GPU计算能力强，还是买个一般的GPU和超牛的CPU？

当然，在一定的预算内

BiscuiT · 发表于 2007-6-11 18:08:47

好啊，配台超猛的，反正你是参加boinc的就多猛都不会浪费了！

CPU跟GPU嘛。。一般家用来说
撇去分布式利用方面，gpu的利用率绝对是很低，偏向cpu上会实际一些；游戏效果要求高的话，显卡花费变大。好多优秀的游戏不需要多强的gpu就可以很出色，就是大型的游戏去掉些效果也是可以流畅的；好点的cpu在处理很多事情都可以省时。还有就是功耗，gpu吃电量不小，而有经常闲置，真像是二八定律，消耗80%电力做20%的事情

其实也不用什么NB配置了，很浪费的（特殊需要除外）
1分钱1分货，1毛钱2分货，1元钱3分货。。。

Julian_Yuen · 发表于 2007-6-12 10:23:04

对对对，功耗要考虑滴

扳脚趾头算算，就会发现，投入在电力上的费用还是会很多的。

BiscuiT · 发表于 2007-6-12 13:03:37

机器如果功率相对多出100w

每天8小时算，4年来会多出1168千瓦时，电价0.62就是724.16元
全天max的话会多出2172.48元

看它是否给你带来价值相符的乐趣咯 XD

Julian_Yuen · 发表于 2007-6-12 15:05:13

所以与其多交电费，不如把电费花在买节能器件上面。

正如节能冰箱省下来的钱会比非节能冰箱多交的电费要少的多。

		自动登录	找回密码
密码			新注册用户

多核革命的希望、风险及影响

回复 #5 Julian_Yuen 的帖子

回复 #6 BiscuiT 的帖子

回复 #7 Julian_Yuen 的帖子

浏览过的版块