当年ATI第一次谈及Radeon HD 4870 X2时,他们告诉我有一个叫做“Sideport”的特性,这是每一个RV770 GPU芯片可用来进行芯片间通信的端口。

原本准备使用的“Sideport”
当交火任务以交替渲染模式进行时,芯片之间并没有通信产生,当不得不进行同步渲染时,性能也随之降低,“Sideport”的作用就是用来缓解这种性能下降情况的。
不幸的是,由于功耗原因,Sideport 从未在4870 X2上得到使用。ATI在设计公版时把它禁用了,所有的其它厂商也把它禁用了。Sidepor是Carrell Killebrew喜欢的特性,但他不得不舍弃。
在2008年早期的时候,ATI意识到他们不得不把这个芯片的边长从20~22mm砍至18mm,每个人都不得不有所放弃才行。Carrell是最提倡设计一个小点的RV870 的人,他不可能做一个虚伪的人,不放弃任何东西。
我不能在文章里长篇累牍的描述我和Carrell之间关于这个特性的谈话。“Sideport”本将在RV870里发挥作用的,但只可惜它不在里面。他还告诉我,如果不定哪天再次看到了“Sideport”也不要感到奇怪。Carrell不是个轻言放弃的人。
第7页:如何在6个月内发布4款GPU?
在包括Carrell在内的众多员工经历了诸多的艰辛工作和牺牲之后,ATI将边长为22mm的RV870芯片削减成大约18mm×18mm的芯片。问题是,RV770的芯片边长大约只有16mm,RV870的芯片面积仍然太大了。
Carrell想对芯片面积再进行更多削减,但有两个因素让他改变了想法。一是,如果想要在RV770芯片大小的面积上造RV870,ATI就不得不将这个芯片的面积砍得更小,砍掉的面积大小甚至超过了Carrell 原先的设想。另一个因素是,必须要削减掉一些着色渲染核心(流处理器)。
为了让GDDR5显存以ATI为HD5870设计的目标速率运行,芯片上类似物理运算的这部分也必须要有相当可观的提升才行。如果芯片边长要达到16mm, ATI要么缩减显存带宽,要么缩减流处理器的数量,这两种方案都会让RV870的处理速度变慢。
我问Carrell ,如果芯片的边长只有16mm,是否会让发布时的RV870售价便宜$100 ,达到和RV770发布时的售价一样,他说不会。直到很久以后我才搞明白为什么,但这个具体原因我以后再讲。
为了达到16mm×16mm 的芯片面积而牺牲性能的情况并没有发生,但这次让Carrell信服“设计一个大点的芯片是可行的”根本原因是,ATI在不到6个月的时间内发布4款不同的40nm DirectX 显示芯片的能力。ATI拥有这种能力,但它得到的赞许还远远不够。
记住,Carrell质疑造大GPU的合理性,是因为大多数消费者要等待更长的时间才能买到大GPU的衍生产品。看看G80或GT200,等了多长时间才造出其衍生出的中低端产品吧,谁又知道我们什么时候才能看到$150的 Fermi/GF100衍生产品呢?
但ATI的工程部承诺了两件事。第一,Cypress会有一个大约能同时准备就绪的称为“Juniper”的后续产品。第二,另外两个GPU也会紧随其后,整个新一代产品线将在不到6个月的时间内布局完毕。之前,ATI在2008年接近3个月的时间里发布了3款GPU产品,但HD4000系列的第4个成员直到2009年4月才发布。
这是一件很不容易做到的壮举。ATI有多个协同工作的设计团队,在印度/中国有大量的工程设计资源。对Cypress和Juniper的设计工作一前一后的展开,假设没有会使研发工作中断的大缺陷出现 ,ATI就能够极大的拓展两个设计团队在设计同样硬件(Juniper 的规格只是Cypress的一半)方面的工作效率。
要冒这样巨大风险的想法让Carrell感到不安。要并行的设计两个GPU芯片,对于同一代的芯片而言,风险着实不小。如果一切非常顺利,那可以在同一时间设计出两种芯片。反之,就会把两个设计团队都拴在同一代产品上,产品的延期会让ATI吞食自己的“Fermi”苦果。
最终让Carrell接受这个方案的原因是,工程部的人告诉他,他们能够实现这个目标。Carrell 信任和他共事的人,他认为如果你相信你周围的人有最好的表现,那么他们就会表现得最好。他不可能让自己怀疑设计部提出的方案。Carrell惴惴不安的在方案上签了字,“Evergreen”家族就这样诞生了。
Cypress和Juniper几乎是同时交付的。实际上,Juniper比Cypress还稍早一点就准备就绪了,样卡在ATI发布HD5000系列几个月前就交到开发人员手里了。Cedar和Redwood也接踵而至,更不要说双Cypress的Radeon HD 5970了。所有的这些都在6个月不到的时间内就完成了,而且准备就绪(芯片本身在4个月内就准备就绪了)。
当烟幕散尽,ATI所有$600, $400, $300, $200, $150, $100 和$60的新DX 11产品整装待发。Windows 7/DirectX 11带来的市场增长点,被ATI牢牢抓住,恰如其时,恰如其分。
第8页:跃进到40nm制程所付出的代价
故事的这一部分本可以独立成章,但因为它直接影响到了Cypress和整个“Evergreen”系列显卡,所以还是值得说一下。
到目前为止,你肯定已经听说了不少关于台积电40nm制程的事,这其实都已经过去了。良率极差,改进缓慢,这导致了去年Cypress核心显卡的缺货和NVIDIA Fermi/GF100的延期。接下来,我想谈谈向40nm制程迈进以及为什么这个迈进如此艰难的事。
作为一个没有工厂的半导体(fabless)公司,当你试图推出新产品并寻求销售伙伴时,会有不止一个选择。除了与显存公司、元件制造厂商以及拥有你所需要的知识产权的家伙打交道外,你还得与第三方,也就是实际上帮你造芯片的代工公司打交道。糟糕的是,差不多每年,你的代工伙伴就会跑过来向你兜售新的制程,让你使用。
兜售手段总是大同小异:这个新制程更精细,制成的芯片要小很多,但运行得更快,功耗更低。就像任何公司的推销员一样,你的代工伙伴总是希望你能尽快使用他们最新和最棒的制程。在计算机行业里,这一点儿也不新鲜:他们总是希望你能先购买他们的产品,但实际上你想要的产品还根本未准备好,但他们在推销时毫无惧色。
通常发生的情况是,你的代工伙伴会找到你,给你出示一个列满设计标准和各种注意事项的目录。如果你动心了,他就会向你保证他们能为你生产出那种芯片,而且生产出来的芯片肯定可以使用。换句话说就是“ 照我们说的做,你的芯片肯定能够量产”。

Global Foundries' 2010 – 2011制程路线图
问题是,你即便遵照全部这些设计标准和注意事项,新的芯片也不会比以往旧一代制程造出的芯片快多少,良率还差不多。如果不能想到这些“注意事项”,在设计芯片时,你可能会变得更大胆,但这样一来你付出的成本反而要高不少。
通常情况下,在两个制程节点之间,晶元的大小不会发生变化。之前我们一度使用200mm的晶元,现在更先进的工厂则使用300mm的晶元。然而晶体管的大小确实在不断缩小,因此理论上,随着制程的进步,你在一张晶元上可塞入的核心晶片也更多。
新制程也会带来问题——每张晶元的价格也在上涨。因为是新制程,也就意味着复杂程度可能也更高,因此晶元的成本也高。如果晶元的成本高50%,为了和旧一代制程的晶元成本持平,你在每一张晶元上就要至少多塞入50%的核心。现实中,在新制程的晶元上,你实际上得塞入超过50%的核心才能持平,因为新制程的良率开始都很低。但如果你太相信代工伙伴的话,所谓能保证量产,那么你的成本可能连持平都难。
最终的结果就是,你转向新的制程,但得不到任何收益。对于实际上想利用摩尔定律来实现收益的公司来说,尤其对GPU公司来说,这不是一个好选择。
这个问题的解决方法是,你的公司里一定要有非常有头脑的人,他能够审慎的对待代工伙伴提供的这些设计标准和注意事项,能够决定哪些是可以忽视的,他还能找出对那些需要重视的方面的针对性解决方案。在这一点上,ATI和NVIDIA有着天壤之别。
第9页:制程vs架构: ATI与NVIDIA的不同
从NV30 (GeForce FX系列)的挫折以后,NVIDIA就再不是第一个过渡到新制程的公司。不是让硬件工程师把更多的精力放在制程技术上,相反,NVIDIA选择把它更多的资源放在架构设计上。而ATI则正好与NVIDIA相反。ATI对于新制程节点倒并没有NVIDA那么恐惧,因此它把更多的工程设计资源都放在制造方面。这两种方案都不完全正确,都有利有弊。
NVIDIA的方案对于一个成熟的制程来讲可以运用得很好,这个方案也意味着在重要的两个制程间(例如,55nm至40nm)转换时,NVIDIA的竞争力会弱些。因此,它需要花更多的时间来把架构设计的更有竞争力才行。ATI在RV770上投入的努力主要是在架构设计上,结果也没有让ATI失望,对比RV670便知。
NVIDIA以史为鉴的认为,应该让ATI冒所有的风险去尝试新制程。一旦制程成熟了,NVIDIA也将转向这个制程。这个想法对NVIDA来说非常好,但也意味着在使用新制程方面,ATI将拥有更多经验。因为ATI把自己置于一个早于竞争对手尝试未经检验的新制程的处境里,为了降低风险,ATI 就必须让更多的硬件工程师致力于了解制程技术。
在与我交谈时,Carrell很快指出制程间的转换不能称之为过渡。过渡意指从一项技术到另一项技术的平稳转移。但在任何晶体管主要制程节点之间的转换(例如55nm到45nm的转换,而非像90nm到80nm的转换)过程不像是过渡,到更像是跃进。你在跃进前就要做准备,尽量在落地时力求毫发无损,但一旦你的双脚离开地面,对落地的情况就很难控制了。
在任何制程节点上进行跃进都会冒很大风险。作为一个半导体制造商,诀窍就在于如何降低这种风险。
在某种程度上,两个制造商都不得不使用新的制程节点制造芯片,否则他们就要承担守旧落后的风险。如果你落后了不止一代制程,那么这场竞争游戏你就输了。问题是,在使用全新制程上,你要设计制造什么样的芯片?
这儿有两种流派:大跃进或小跃进。这儿的“大或小”是指你在“跃进”时所使用的芯片面积大小。
小跃进的支持者相信下述情况:在新制程里,芯片缺限率(晶元上每单位内的缺陷数量)(与良率相对)情况不会很好。在整个晶元上会遍布大量的有故障的芯片,为了降低良率造成的影响,需要使用小一点儿的芯片。
如果我们有一张能够塞下1000个芯片的晶元,这个晶元表面上有100个故障芯片,那么每个芯片出现故障的机率就为10%。

一个假想的晶元,小芯片设计,上面有7个故障芯片,单个芯片受故障影响很小
大跃进的情况自然相反。你在大芯片上使用新制程,现在不是1000个芯片中只会有100个故障芯片了,在只能塞下200个芯片的晶元上,可能就有100个故障芯片。如果故障芯片分布均匀(实际上是不可能的),每个芯片出现故障的机率现在就成了50%..............

一个假想的晶元,大芯片设计,上面有7个故障芯片
光就量产方面来考虑,没有理由去选择大跃进。但选择大跃进的方案也有好处,最显而易见的理由就是:你能够靠制造大芯片获得优势,比如在性能上胜过竞争对手,这样可以比制造小芯片获取更多的利润。
另一个不那么明显,但甚至更重要的选择大跃进的理由,实际上是大跃进本身的缺点。因为大芯片时常陷入失败境地,所以大芯片也更容易暴露制程的问题。失败几率越大,你在过程早期了解其缺点的机会也更多。
对产品来说是要冒很大风险的,但这也给了你很多知识经验,在今后,你在采用同一制程的产品上可以用到这些经验。
第10页:回报:RV740是如何拯救Cypress的
ATI在其路线图中,选择了比较有意义的最大的芯片设计来制造其第一款40nmGPU,这就是RV740(Radeon HD 4770)。

ATI第一款采用40nm制程的芯片,Radeon HD 4770, 2009年四月发布
相反,NVIDIA选择了一个小一点儿的芯片来试水40nm制程。RV740芯片面积为137 mm2,而NVIDIA第一批40nm GPU是芯片面积分别为57 mm2和100 mm2的GT210与GT220。G210和GT220在上市的头几个月都是仅供OEM,我想OEM订单中GT 210占的比重比较大。注意,直到GeForce GT 240时,NVIDIA才使其40nm芯片的面积达到RV740的芯片大小。GT 240在2009年11月才发布,而Radeon HD 4770 (RV740) 在2009年4月就发布了,比GT 240早了7个月。

NVIDIA第一批40nm GPU在2009年7月才开始出货
当ATI和NVIDIA同时开始在高性能GPU上试水40nm制程时,ATI在台积电的制程方面和大芯片问题上拥有更多的经验。
ATI绘图工程部的副总裁王启尚,在那时就已对台积电的40nm制程问题感到担忧了, 他早在设计RV740的过程中就把他的担心向Carrell吐露了。王启尚担心在芯片制造过程中金属加工处理方面的不成熟,可能导致连接(芯片内不同金属层之间微小的联接物)出现质量问题。40nm制程中的这种连接故障率非常高,足以影响到采用此种制程的产品的生产。即使这些连接不会都出现故障,连接的质量问题也会导致通过这些连接的信号效率有所下降。

AMD绘图工程部的副总裁-王启尚
对台积电40nm制程的第二个担忧是关于芯片晶体管构建差异度方面的。在半导体设计中,你必须要考虑到成千上万的晶体管的差异度。对于任何一种制造,芯片与芯片之间晶体管的差异也是千差万别。王启尚实际上担心的是晶体管通道长度制造上的差异,他担心台积电根本达不到它给ATI提供的允许公差范围。

一个标准的互补型金属氧化物半导体晶体管,它的尺寸通常有非常严格的公差范围
台积电让ATI相信,晶体管通道长度之间的差异将会很小。Carrell和设计团队对此都感到不安,但却无可奈何。
金属层之间的连接问题容易解决(但代价也很大),王启尚决定将RV740芯片内部金属层之间的连接数量翻倍,但凡在RV740芯片两个金属层中间有连接的地方,在设计时就多设计1倍的连接数量。这会让芯片变得大些,但也比芯片造出来时无法工作好。然而晶体管通道长度的差异性却没有马上就能解决的办法——这是他们担心的地方,但也许可以说是莫名的害怕。
台积电开始制造第一批RV740芯片。当芯片拿回来后,它们运行时的温度比ATI预期的还要高些,而且漏电率也超出预期。工程设计人员开始工作,他们把芯片拆开,逐一对其中的部件进行分析。没多久,他们就发现晶体管长度的差异度远远超过了原来的公差范围。如果通道长度的差异度达到一定程度,芯片中一些部件的运行就会慢于预期,而其它一些部件的漏电现象也会更加严重。
工程设计人员最终找到了一个方法,通过改变RV740的设计,修复了漏电的大多数问题。性能仍旧是个问题,RV740作为一个产品几乎失败了,因为修复所有这些问题所花费的时间太长了。但其实RV740在ATI试水40nm制程方面承担了重要的角色,它担负了“清道夫”产品的职责,为Cypress以及“Evergreen”的其它成员走向成功做了很好的铺垫。
所有这发生的一切对NVIDIA也适用吗? 这当然很难说清楚。但传言似乎都认为NVIDIA根本没有ATI在40nm制程上的那些经经验。去年12月,NVIDIA公然抨击台积电,要求台积电在芯片金属层连接上要达到零缺陷。
围绕Fermi的那些谣言,也表明NVIDIA在Fermi上也遇到了ATI在RV740上遇到的同样问题:良率偏低,芯片发热量大于预期,核心时钟频率低于原定目标。得承认,我们还未看见任何GF100芯片,因此对于任何一种谣言,都无法确定。
当我问NVIDIA为什么Fermi/GF100会延期这么久,NVIDIA把其归咎于一些架构部件无法制造。当然,我当时问的是一位架构师。如果Fermi/GF100实际上只是NVIDIA用来获取台积电40nm制程的经验的,那么我估计其后续产品应该会顺利许多。
不是台积电不知道如何运作一个制造工厂,可能是它在向40nm制程跃进时,步子迈得太大了。
你可能还记得关于Cypress的讨论,Carrell深信台积电的40nm制程实际使用的代价比预期的要高得多。然而,当时不管是在ATI还是在NVIDIA,很少有人相信这一点。我问Carrell为什么会这样,为什么他能预料到很多其它人不知道的事情。Carrell归结于经验,他还详细讲了一些在文章里不便说的事情。不必说,他对台积电在40nm制程上的许诺持怀疑态度,拥有实用的怀疑态度从来不是坏事,小心驶得万年船嘛。
第11页:严防泄密 “宽域”如何产生(一)