Arm的十年PC征程，和微软的“暧昧”

https://mp.weixin.qq.com/s?__biz=MjM5MTIwMjY1Mg==&mid=2649928364&idx=1&sn=d61ec5e228bc6aff77e3e4bd5006a55f

原创黄烨锋电子工程专辑今天

作者：黄烨锋

EET电子工程专辑原创

上个月月底，Arm宣布推出ARMv9，在AI、安全方面针对Arm家族IP有了未来10年的新规划。传言苹果即将发布的A15芯片很有可能会率先采用ARMv9指令集。这个消息的可信度虽然一般，但苹果率先抢跑Arm的新版指令，已经不是什么新鲜事了。

不光是近代苹果A14、A15这样的芯片，相较高通这类竞争对手都更早从Arm手中拿到ARMv8.4a/8.5a这种新规格，更具代表性的一件事还是在2011年10月，ARMv8首度亮相——Arm的64位时代正式开启。当年许多分析师认为，移动设备暂时用不着64位处理器，且基于桌面市场的经验，32到64位在移动设备上的迁移需要很久。

事实证明电子科技行业的历史经验往往并不靠谱，在Android阵营32位“真八核”搞得如火如荼的年代，苹果于2013年以令人惊讶的速度推出A7芯片，这是颗64位处理器，令当时的高通大乱阵脚。所以即便前不久Arm宣称联发科已经在准备ARMv9芯片，苹果大概率也是不会错过前期抢发的。

借此机会，本文期望谈一谈苹果与Arm的那段过往，是早在iPhone 4的A4(2010年)之前的一段历史，称其为“前iPhone时代”大致上也就是这个意思了。从中也多少能够看到苹果在芯片设计上的历史积累。

输入图片说明

80年代：苹果的Aquarius计划

苹果芯片团队广为人知的历史，应该是自苹果收购P.A. Semi之后。不过实际上，早在上世纪80年代，苹果就开始组建自家的定制芯片队伍了，谈苹果与Arm的关系也可以从这段历史开始讲起。

1986年前后，苹果对摩托罗拉的68K处理器始终是不满意的，当时苹果内部有管理团队(主要是Jean-Louis Gassée和Sam Holland)告诉公司CEO John Sculley，苹果在CPU方面应该掌握自己的命运。那个年代，以MIPS R2000为代表的RISC也才刚刚兴起。Aquarius计划在这样的历史背景下诞生了。(此前探讨苹果Mac转向Arm的文章曾谈到，苹果一度放弃摩托罗拉68K)

输入图片说明

John Sculley前期也非常支持Aquarius计划，分拨人才和超级计算机(著名的花费了1500万美元的Cray超算)资源做支持。Aquarius计划的负责人是工程师Sam Holland。从1989年公布的文档来看[1]，这颗名为Scorpius的CPU在规划上比较独特和激进，包括4核心、SIMD支持，还有多处理器互联通讯特性——这在那个年代显得如此“与众不同”。这项计划在苹果内部充满争议，一方面是因为投入巨大，另一方面则是公司内部许多人都认为苹果并不具备这样的技术实力。

一直到1988年，Aquarius计划也没搞出一颗实际的芯片。Sculley失去耐心，项目主管也换了人。该项目新上任的Al Alcorn当时是业界传奇——在雅达利设计出Pong游戏的大佬。Alcorn在拿下这个项目后，找到了微处理器专家Hugh Martin，询问苹果的Aquarius计划是否靠谱。Martin看完之后就表示，这个目标简直就是“ridiculous”。

这也算是苹果最初CPU计划的搁浅时刻了，Cray超算最终也被拿去做Macintosh的工业设计了。不过这项计划的资源储备后续也为Power Mac及配套的不少ASIC芯片设计奠定了基础。

推荐阅读：Arm的十年PC征程，和微软的“暧昧”

90年代初：苹果与Arm的历史渊源

Arm自身的历史应该是众所周知的了：同在80年代Acorn RISC Machine项目(最初Arm全拼)开启，一种性能不怎么样但功耗很低、能效很高的架构问世。与Aquarius计划算是同期或前后脚，苹果开始与Acorn合作。并且在1990年11月27日，苹果、Acorn以及当时的芯片制造商VLSI Technologies共同组建了新公司，名为Advanced RISC Machines Ltd.。

这个时候ARM这三个字母，全拼就已经发生变化了。当时苹果出资获得新公司43%的股份。维基百科中提到，这个名字是苹果要求的;其前身Acorn其实并不希望用这个名字[2]。

输入图片说明
1993年发布的苹果Newton MessagePad 100

后来苹果著名的失败产品“私人数字助理”Newton，就选择了Acorn的处理器。1993年Newton MessagePad问世，应该就是苹果的首款Arm设备了——虽然Arm真正改名叫做ARM Ltd.是在1998年IPO之时。值得一提的是，1993年Arm在业务方向上有比较大的变化，Arm开始做技术授权。这在当时还是相当罕见的。

那一年，TI(德州仪器)很快就成为了Arm芯片设计的授权客户。TI也说服了当时下游客户诺基亚登上Arm这艘船(1994年，诺基亚6110手机的发布应该是Arm IP授权在消费电子领域开推的重要标志)。这两个时期，无论是苹果自身在芯片领域的试错(包括1991年苹果、IBM、摩托罗拉共同组建的AIM联盟，基于Power指令集构建计算标准)，还是苹果出资Arm，都是苹果与Arm产生联系的开始。

输入图片说明

不过后来，当时间调拨到乔布斯重回苹果公司(2001年)，为了让苹果渡过艰难期，乔布斯不仅撤销了不少产品线，而且选择了出售Arm股份。虽然并不知道当时有多少属于苹果的Arm股份被售出，不过到1999年2月，苹果手上实际持有Arm的股份是14.8%，大约值11亿美元。

Arm联合创始人Hermann Hauser此前曾在公开场合提过，乔布斯不在苹果的那段时间(90年代)，苹果其实就已经出售了大量Arm股份[3]。出售的原因似乎也是当年苹果财务状况不佳，且出售时间处在Arm股价低点，算是不得已为之。当然我们现在知道，Arm如今的归属已与过去大不相同。

90年代中期：苹果与StrongARM

即便如此，90年代的苹果与Arm之间也始终存在着某种奇特的关联。当时美国一家颇具传奇色彩的芯片公司DEC(Digital Equipment Corporation)期望做低功耗处理器，不过DEC的工程师认为要基于DEC Alpha指令集来开发能够达到低功耗预期的处理器是不现实的。所以90年代中期，DEC开始对专注于低功耗的Arm产生兴趣。(Jim Keller大神1982-1998年就供职于DEC)

当时基于Arm的苹果Newton设备已经推向市场，所以DEC就主动接触了苹果，询问对于高性能Arm是否感兴趣。苹果工程师回复：“Phhht, yeah. You can’t do it, but, yeah, if you could we'd use it.”(你们做不来，不过要是你们能做的话，我们可能会用。)

于是DEC与Arm合作款、传说中的StrongARM就诞生了。StrongARM定位于对性能有更高要求，但仍在低功耗范畴内的嵌入式设备;所以StrongARM微架构之上出现了不少Arm架构不曾有的东西。StrongARM基于ARMv4指令集，利用DEC自家工具和制造工艺(DEC位于麻省的Hudson工厂0.35微米工艺)，实现了性能至多5倍增长。后续苹果MessagePad 2000/2100、惠普Jornada掌上电脑、Psion 7系列等都有采用StrongARM处理器。

DEC特别在Palo Alto开设的设计中心，为StrongARM项目做出了重要支持。尤为值得一提的是，DEC从Arm获得的架构授权，令其能够基于Arm指令集设计自己的微架构，才有了StrongARM。在此之前Arm只提供核心IP授权，是不允许芯片厂商开发属于自己的微架构设计的[4]。这和现如今的苹果倒是十分相似。

输入图片说明

1996年StrongARM微架构首款产品SA-110问世。这颗芯片曾一度为移动设备的最高性能微处理器代表。参与SA-110设计的有Daniel W. Dobberpuhl这样的大牛。

StrongARM和DEC的传奇在于，它后来对Intel产生了影响，技术层面又很大程度反哺了Arm，与此同时可一定程度认为是苹果当代芯片资源的早期储备。这些还将在后文中提到。1997年，DEC财务表现不佳，外界开始质疑StrongARM生产能力，选择StrongARM的客户因此减少。另外这一年，DEC和Intel打起了专利官司。法庭宣判两家公司签署10年的交叉授权协议。不过最终Intel以7亿美元收购了DEC的一部分，包括Hudson工厂以及两处开发业务(位于奥斯汀和耶路撒冷;另外DEC主体被Compaq收购)。

Intel也因此收获了StrongARM。很快Intel以StrongARM替代当时旗下的RISC处理器产品线。这段时间应算是Intel与Arm的蜜月期了，双方称得上互有补益。但步入21世纪以后，2003年Intel宣布以XScale取代StrongARM;2006年，XScale也被Marvell接手。

当年Intel对移动市场似乎始终不是很瞧得上眼，StrongARM/XScale在Intel看来，赚钱能力远不如PC平台的x86芯片。但这是另外一个故事了，后话是据Intel前CEO Paul Otellini所说，在苹果iPhone问世之前，Intel曾探讨过为其打造移动芯片的可行性。Intel不清楚苹果所需的芯片数量，而且认为苹果能给的价格过低。[5]

输入图片说明

世纪交替：芯片团队成形

1999年6月，一家叫做PortalPlayer的公司成立。这家公司最初针对软件中MP3解码表现，评估了不同的RISC架构，包括MIPS、Arm等，最终他们选择了Arm。PortalPlayer当时设计的PP5001芯片，采用0.25微米工艺，集成了音频播放核心、LCD驱动、USB接口等。2000年，IBM和索尼都相中过这颗芯片。只是这颗芯片的性能实在不怎么样，而且存在一些影响产能的缺陷。

不久，PortalPlayer与eSilicon合作重新设计出了PP5002，采用双核90MHz ARM7TDMI(基于ARMv4，诺基亚历史上的大量手机都采用这个核心架构[6])，台积电0.18微米工艺制造。据说当时苹果为iPod选择芯片时，对9款不同的MP3芯片做了评估，包括Cirrus Logic、意法、TI等的产品，最终选择了PortalPlayer的PP5002。2001年10月，iPod发布大受好评。

输入图片说明

以iPod当时软件方面的出彩设计、操控体验和续航表现，Arm芯片应该算是开启新苹果时代的见证者了，毕竟在此之前苹果正处在垂死挣扎的边缘。两个月12.5万台的iPod销量把苹果拉回到了正轨。PortalPlayer当时说苹果下的订单，是原本预期的100倍。2004年PortalPlayer随着iPod热销，公司也在纳斯达克上市了。

不过2006年4月的某一天，三星突然宣布替代PortalPlayer成为未来iPod处理器供应商——当然同样是Arm架构。PortalPlayer方面十分懵圈地表示，苹果改换芯片供应商“没跟我们谈过”。虽然PortalPlayer有考虑过起诉苹果，但很快在这一年的11月，PortalPlayer被英伟达收购。而PortalPlayer也成为英伟达后来相当出名的Tegra移动处理器的起源，现在我们也知道Arm本身即将归属英伟达，那又是另一个故事了。

输入图片说明

苹果与PortalPlayer合作同期，2003年美国一家fabless半导体公司P.A. Semi成立。这家公司正是前文提到的DEC公司大牛、StrongARM微架构领衔设计人员Daniel W. Dobberpuhl创办的。事实上，DEC此前被收购后，其半导体业务遗产也算是四处开花了，P.A. Semi是其中的一个。

P.A. Semi专注的方向是Power指令集处理器。当时曾一度有传言说，苹果可能会成为P.A. Semi所推处理器的重要买家，毕竟苹果此前是AIM联盟的一员。2005年乔布斯在开发者大会上宣布Mac从PowerPC转往Intel处理器，这一传言自然也就被扔进历史垃圾堆了。

但是2008年4月，苹果宣布收购P.A. Semi。如前所述这一时间点，其实苹果已经抛弃Power ISA处理器了，旗下全线产品都已经转往x86和Arm。这一年的WWDC开发者大会上，乔布斯表示P.A. Semi的工程师们会和苹果一起，为iPod、iPhone以及未来的移动设备打造芯片。(另外在2008年年初，Jim Keller加入了P.A. Semi，即随后也就成为了苹果的一员)[7]

这是苹果当代芯片梦之队构建的最初阶段。此番兜兜转转，苹果最终还是和Arm走在了一起。从乔布斯回到苹果，并在iPod设备之上采用Arm芯片就已经开始。苹果80年代的芯片设计团队、九零年代初促成Arm创立(以及与摩托罗拉、IBM共同组成AIM联盟)、90年代中期与StrongARM的关联，和21世纪收购P.A. Semi，始终与Arm有着千丝万缕的联系。

在这个过程中苹果自己早期的芯片团队也始终有表现，比如说Newton上的ASIC芯片，以及Mac设备上与IBM合作打造的北桥部分。只不过到收购P.A. Semi，苹果打造一颗完整处理器的意愿也才有了机会。

前iPhone时代：苹果芯片问世

后面的故事，大部分人就应该都知道了。不过在P.A. Semi全面发挥作用之前，三星与苹果之间的合作也当属苹果芯片问世之前重要的过渡事件。三星最早为2007年问世的iPhone提供了S5L8900处理器(APL0098)。这颗芯片采用90nm工艺，412MHz ARM1176JZF-S核心，外加Imagination的PowerVR MBX Lite GPU。

在iPhone 4之前，苹果用Arm处理器IP和三星的库做RTL级的SoC设计。三星按照苹果的RTL规格，总共给苹果做了3款处理器，包括两款面向iPhone的处理器和一款面向iPod Touch的处理器。

到第四款SoC芯片之时，苹果就打算做完整的SoC设计了。苹果准备让原有的逻辑芯片设计团队，外加收购的P.A. Semi一起来设计属于自己的Arm芯片。不过自2008年苹果与Arm签署授权协议，让原P.A. Semi团队开发一款基于ARMv7的芯片，通常需要2-3年甚至更久的时间。

输入图片说明

因此，苹果在2010年相当低调地收购一家名为Intrinsity的公司，来加速Arm芯片设计[8]。2009年Intrinsity宣布基于Arm Cortex-A8的Hummingbird核心，基于三星45nm工艺及Intrinsity自己的Fast14方法。Intrinsity宣称其半定制方法能够在最快4个月的时间里产出SoC设计。2010年初，苹果果然宣布推出应用了苹果A4芯片的iPad平板问世。

也是自iPad初代和iPhone 4问世，苹果就正式踏上了Arm芯片设计之路;并且有了自iPhone 5开始，在微架构层面与Arm同期“公版设计”差异越来越大，并将其他芯片设计厂甩在身后的新发展;最终直到今年，将自研Arm指令集的芯片应用到包括Mac在内的全线产品之上。回看这番折腾，苹果M1芯片如今的传说实在不是一朝一夕达成的，苹果与芯片之间至少磨合了几十年。

推荐阅读：Arm的十年PC征程，和微软的“暧昧”

参考来源

[1] Apple's Scorpius CPU (Aquarius project) - 1989, Apple Computer

https://archive.org/details/scorpius_architecture

[2] Arm Ltd., Wikipedia

https://en.wikipedia.org/wiki/Arm_Ltd.

[3] This Is How ARM Saved Apple From Going Bust in the 90s, John Brownlee, Cult of Mac

https://www.cultofmac.com/97055/this-is-how-arm-saved-apple-from-going-bust-1990s/

[4] StrongARM - Microarchitectures - DEC , WikiChip

https://en.wikichip.org/wiki/dec/microarchitectures/strongarm

[5] How Apple Became a Force in the Semiconductor Industry, Daniel Nenni, SemiWiki

https://semiwiki.com/ip/arm/7960-how-apple-became-a-force-in-the-semiconductor-industry/

[6] ARM7, Wikipedia

https://en.wikipedia.org/wiki/ARM7

[7] P.A. Semi, Wikipedia

https://en.wikipedia.org/wiki/P.A._Semi

[8] Intrinsity likely powers Apple's A4 iPad processor，AppleInsider

https://appleinsider.com/articles/10/04/21/intrinsity_likely_powers_apples_a4_ipad_processo

Arm的十年PC征程，和微软的“暧昧”

https://mp.weixin.qq.com/s?__biz=MjM5MTIwMjY1Mg==&mid=2649926460&idx=1&sn=2da6c2d549115ec71e1b7e373ec0b4f9

原创黄烨锋电子工程专辑 3月16日

作者：黄烨锋

EET电子工程专辑原创

早年有个遥远的传说，80年代首款由英国Acorn Computers设计的微处理器ARM1问世。ARM1芯片后续是作为BBC Micro微计算机中的协处理器存在的，当时是BBC Computer Literacy Project研究开发项目，并未商业化。

据说这颗芯片的流片原型在首次测试的时候，顺利跑起来了，但电流计显示不出读数。结果发现芯片根本就没上电，那怎么跑起来的?原来这颗芯片是从测试板I/O的漏电获得的电——低功耗低到这个程度是万没想到的。Acorn原本预设了ARM1是颗低功耗芯片，功率设定1W，但实际最终平均功耗低于100mW。

输入图片说明
来源：Twitter @kenshirriff

这个小“事故”应该也为Arm在低功耗芯片领域发展，奠定了传奇般的基础。Arm这家公司后续发展，似乎也始终围绕着“低功耗”展开——早年这种低功耗并不被重视，直到如今的电池供应设备如此之多，智能手机、可穿戴及各种IoT设备，海量采用Arm架构的芯片。

3月18日将由Aspencore在上海举办的2021中国IC领袖峰会上，安谋科技(中国)执行董事长兼首席执行官吴雄昂就将以“搭载新时代大计算平台”为题，谈Arm在除低功耗领域之外，更大范围的发展。

在此之前，不妨回顾一下Arm在低功耗另一面，高性能领域的探索和潜力展望。PC个人计算机，就是Arm试探了十多年，才初见成效的一个方向。可见从低功耗，走向高性能有多不易。而这刚刚开启的一步，大概已经是成功的一半了。本文主体以PC为观察角度，来谈谈Arm在低功耗领域之外持续了十多年的尝试。

微软的“红杏出墙”

近代PC的主流，也就是以macOS和Windows这两个操作系统为代表了。如果只讨论桌面(及服务器)平台的Windows，微软的这个操作系统是有多指令集支持的历史的。Windows NT 4.0及后续更新除了支持x86以外，也对PowerPC、DEC Alpha和MIPS提供支持。不过从Windows 2000开始，微软就彻底抛弃了x86以外的其他平台。Windows早年历史和Arm关联不大(除了像Windows CE这种嵌入式系统)，毕竟桌面与服务器平台那时更需求高性能，而对功耗不像现在这么敏感。

微软与Arm比较众所周知的融合发生在2011年的CES展上，算起来刚好走过了10年。微软在展会上首次展示了Windows RT操作系统(实则为NT内核对Arm的支持)——这是个彻头彻尾基于32位Arm架构的PC操作系统，代号Windows on Arm(WoA)。次年10月，Windows RT与Windows 8一同发布。从这个时候开始，微软似乎就一直在动“脚踩两只船”的歪脑筋。

输入图片说明

Windows RT的“RT”两个字母部分是指runtime。微软的理想是在搭建的Windows RunTime运行时之上，同时实现对x86和Arm的支持(上图中的Metro style Apps)。Windows 8及当时的Windows Phone 8也有这么个runtime;这是微软最早期望实现不同平台生态统一化的设想。不过最早的Windows RT作为操作系统，仅支持Arm应用。而且微软仿照iOS和Android生态，令Windows RT用户仅可从应用商店下载app，以实现对应用生态的全面掌控。

微软还专门推出了搭载Windows RT系统的Surface设备，延续了两代。当年的Surface初代采用基于Arm架构的英伟达Tegra 3处理器，算是真正意义上Arm入驻PC生态的开端。不过微软对Arm生态的三心二意，以及应用商店几乎没有像样的应用，传统的x86应用又完全不支持，让Windows RT很快宣告了终结。微软还因此遭受了9亿美元的亏损。(Windows RT的终结，另一方面与当时Intel开始和微软大力推9英寸以下Windows山寨设备有关)

2012年的Tegra 3属于英伟达在移动处理器领域的早期作品，这颗SoC以Cortex A9 4+1的设计，在当时也算个异类了。彼时的Arm处理器应用到Windows PC设备算是新鲜事，只不过那个时期的Arm架构处理器在性能上，与x86仍不在一个维度。

输入图片说明

Windows RT虽然终结，但其中的runtime为如今Windows 10 on Arm奠定了重要的基础，这是后话了。事实上在此期间，微软还有过一些同类尝试，比如说2017年发布的Windows 10S。Windows 10S虽然并不定位在基于Arm，但严格限定了仅可从微软商店下载app。按照微软的说法，这个系统是为教育市场开发的，主要用于狙击Chrome OS上网本。但次年10S就被放弃。

这些尝试无一不表明，微软对iOS、Android一类生态的眼馋从未停止过。好好的，微软究竟为何要从深耕多年的x86生态“红杏出墙”，大肆向Arm表达“爱意”?我想其中至少有几个原因：

其一，Windows原有生态相对混乱。包括系统安全性差，冷不防就被人植入木马;且Windows应用于入门级硬件的体验很差，一水的Atom上网本实在不怎么样，这与Windows臃肿的生态是分不开的。微软因此期望牢牢掌控应用生态，这是Windows RT、Windows 10S出现的原因。

其二，转向Arm理论上可以让OEM厂商获得更高利润空间，戴尔、联想这些企业会有更强的意愿做推广。而且新生态下，廉价设备不需要绑一大堆垃圾软件出售，用户体验可获提升。

其三，在疫情出现以前，PC行业已长期停滞不前，PC出货量连年下降;行业需要技术上的强心针来推一把。

输入图片说明

PC出货量下滑又是个庞大的话题了，与本文相关的原因至少包括PC平台本身缺乏创新，Intel/AMD此前十多年的竞争实在是有些不思进取。智能手机、平板的出现也事实上拉低了很多人对PC的依赖，像iPad Pro这样的设备变得既能轻度办公，续航、流畅度、性价比各方面都优于PC。

可能还有一个重要原因，在微软前CEO鲍尔默卸任后，新任CEO纳德拉很快就调整了微软的策略，微软的每个产品线独立发展。所以2014年Office就全面支持iOS，随后微软就成了苹果最佳开发者，M1芯片MacBook发布会上，苹果称微软是“我们的朋友”……微软作为生产力工具界的扛把子，纳德拉的策略也实实在在影响到了PC的销量。

输入图片说明

上面这张图是国外Wikibon去年上半年预测的PC出货量变化。当然这个预测实则并未考虑到疫情对PC行业的刺激作用(以及缺芯的影响)。但在大方向上，Arm能够极大推升PC出货量的上扬是共识。

这就相关第四点了，即Arm与生俱来的低功耗属性，令其格外适用于笔记本这样的移动PC设备。基于Arm芯片的笔记本设备，续航是真正的一整天，与x86笔记本续航不可同日而语。加上微软系统层面的努力，以及PC设备形态可能发生变化(如折叠屏笔记本)，PC体验能够再上一个台阶。Arm芯片的发展，尤其性能上的跨越式进步、生态的逐步完善，在此又是一个重要话题。

走了10多年，才开始走近PC主流视野

事实上，Arm阵营这边在这10多年间也从未放弃过登陆PC平台。除了前文提到的Arm与微软积极合作，还包括高通这样的芯片设计商期望实现Android系统的PC化努力(罗永浩的Smartisan TNT就得到了高通的大力支持)。只不过起码这10年间，Arm针对PC平台的攻势，都从未真正成功过。

这也是多方面原因导致的。第一自然就是x86生态根深蒂固，难以在短期内撼动;第二，Arm在苹果M1(和骁龙8cx)之前，也的确没有真正拿得出手、能在性能上与x86相较的PC处理器;第三，微软在两个生态间摇摆不定，想要拥抱Arm的同时，又舍不得昔日x86，这也成为Arm真正搭上PC这艘船的重要阻碍。

输入图片说明
今年MWC上海展会上，高通展示的骁龙8cx笔记本，不仅是微软自己的Surface Pro X，还包括三星、联想等OEM厂商的多款设备

即便是现在，其中第三个原因都仍然存在。不过随着微软再再再次与Arm合作，新版Windows 10 on Arm的成熟度，以及如今的Arm芯片，已经和当年大不一样了。前两个问题正被逐渐解决。微软这边，当年的Windows RT就积累了不少经验。

Surface Pro X设备就是Windows 10 on Arm最佳实践。这台设备采用高通8cx处理器，单系统本身及微软官方应用(如Office、Edge)使用体验都很好，续航表现远超x86版本的Surface，且设备不带风扇，还更轻薄。只不过由于生态问题，Surface Pro X运行x86应用时，x86->Arm转译成本高，效率非常悲惨。

输入图片说明
微软SQ1，即骁龙8cx

Windows 10 on Arm的大方向思路未变，即在Windows Runtime之上，要同时跑x86和Arm应用。在所有Arm、x86平台的Windows设备上，提供通用API。这是很理想的一种开发设定，微软称其为UWP(Universal Windows Platform)，不需要管下层处理器架构。而UWP应用又会全数上架至官方应用商店。不过即使到目前为止，微软UWP的开发响应者都仍然不多。

所以针对传统x86应用，微软也开发了x86->Arm的模拟器，让以前的很多x86软件也能跑在Arm版Windows 10之上。要说微软的动作还真是相当缓慢，不谈32位应用的WOW64模拟器效率很低——Adobe全家桶这样的软件跑起来几乎就是灾难;而且64位应用模拟器迟迟未进入正式版，现在还在Windows预览版通道中(据说效果不错)。

不过Windows 10 on Arm早就比当年的Windows RT有了高得多的可用性。而且至少这次，生态构建效率稍高了一些，比如Adobe去年12月面向Windows平台发布了Arm版的Lightroom，Arm版Photoshop也处在beta状态了——总算开发者响应比以往更积极。更不用提，Arm版macOS一推出，主要开发者几乎是群起响应。

Arm这边，面向Windows笔记本的高通骁龙8cx如今走到了第二代，也是与微软合作的第二代产品。其低功耗表现实则无需赘言，Surface Pro X的超长续航即是佐证。关键应在于，这颗芯片在性能上和x86阵营的竞品比起来如何。如我们此前在M1芯片分析文章中谈到的那样，骁龙8cx的实际性能顶多是差强人意。

输入图片说明
来源：NotebookCheck

不过毕竟骁龙8cx功耗水平才7W——这个功耗顶多也就是手机芯片的加强。以3.15GHz(Cortex-A76)的频率，达成与Intel LakeField(酷睿i5-L16G7)相似的单核性能成绩也在情理之中。值得一提的是，虽说Geekbench算不上什么靠谱的跑分工具，但看NotebookCheck的这些得分，Arm阵营这两年的整体水平实则都不再是10年前的孱弱样子了。

基于Arm指令集的苹果M1芯片的带来，则全面证实要用Arm来实现高性能，应用于PC是完全可行的，与此同时还能达成碾压x86阵营的低功耗水平。

PC之外的“高性能”扩展

总结一下Arm之所以过去10年之后才真正有能力在PC之上逐渐站稳，一方面在于微软和苹果作为操作系统供应商态度的转变;另一方面也是Arm在经过这么多年的发展后，在低功耗的基础上，还有与x86阵营在性能方面一战的能力——Arm、苹果、高通在其发展中都做出了不可磨灭的贡献。

事实上，微软如今对待Arm和x86两者的态度依然是暧昧的，Windows Runtime运行时的存在已说明一二。这始终是横亘在Arm面前的一座大山。不过微软正在规划新的Windows 10X系统，预计今年会随同部分便携式硬件推向市场。

Windows 10X是个试图抛弃历史遗留问题，加强用户体验和安全性的系统。系统不再原生支持传统的win32应用，而是将这些传统应用默认放到container中运行。当然它也支持Windows Runtime API。且似乎现有规划中的Windows 10X设备都基于Arm平台，这对Intel实在不是什么好消息。

当然以微软态度摇摆的传统，Windows 10X仍有可能是下一个Windows RT或者Windows 10S。但从中，我们还是能看到微软起码在试探重整Windows生态的可行方案，Arm则会是这个方案的基石。

与此同时，苹果以极其潇洒的姿态抛弃x86生态，开发生态全面转向自家的Arm芯片，实则也在无形中帮助微软加速了转舵过程。

输入图片说明

最后可以谈一谈PC之外，Arm如今的扩张。IoT和更多低功耗芯片市场就不谈了，毕竟这一直都是Arm主场，比如说小至SSD固态硬盘主控芯片的Cortex-R系列实时核心，大到虽被唱衰但发展依然不错的Cortex-M系列面向IoT设备的低功耗芯片。

Arm对高性能计算市场的冲击也不是第一次了，只是此前尝试都不能算成功。和Arm在PC市场的发展一样，这两年Arm芯片在HPC、超算、数据中心市场的发展又构成了新局面。这其中有一些典型事迹：

比如说去年富士通发布名为富岳的超算，成为新的全球超算第一，其中的A64FX芯片就基于Arm v8.2A架构，这颗芯片的市场反响就相当好，规划中今年出货给亚马逊、谷歌、微软这些云供应商。再比如前年亚马逊宣布其自研Graviton2处理器应用于AWS EC2，就是采用Arm Neoverse N1架构。

输入图片说明

去年9月，Arm又为Neoverse家族(面向基础设施)新增了V系列，比此前的N和E系列都更偏重性能，就像数据中心界的Cortex-X1，通过进一步打破PPA限制，在单核性能上对标x86高性能核心。

与此同时，如此前在《Arm在数据中心的价值：黄氏定律背后，英伟达打的什么算盘?》一文中所述。英伟达在数据中心的强势，预计未来会令主控CPU愈加边缘化。而英伟达对Arm的收购，则将Arm推向了进一步的大一统。在端到端部署Arm之际，也就是Intel退场的时候了。这应该也是吴雄昂要在中国IC领袖峰会上谈“搭载新时代大计算平台”的一部分。

不过Arm的这种发展策略因大环境与英伟达对其收购，亦存在不少变数。我们此前采访的不少企业就预想到了因收购可能产生的商业风险，不止一家企业都强调采用Arm与RISC-V并行的策略，且提及RISC-V在多个方向上的发展愈发成熟;一些重要的市场玩家都在筹备后手。但有挑战存在的市场，才有发展。即便是不思进取的x86平台，这两年都焕发了新活力。

更多有关IC设计的精彩内容，欢迎参与即将在3月18日于上海召开的2021中国IC领袖峰会，与专家面对面。点击下方阅读原文链接，报名参与此次盛会。

阅读原文
文章已于2021/03/16修改

Arm在数据中心的价值：黄氏定律背后，英伟达打的什么算盘？

https://mp.weixin.qq.com/s?__biz=MjM5MTIwMjY1Mg==&mid=2649920064&idx=3&sn=1d79be76f1f37612bfabe1236b220bfc

电子工程专辑 2020-12-21

在Aspencore全球分析师共同发布的《2021年全球半导体行业10大技术趋势》一文中，有一项提到了，HPC数据中心专用加速的趋势递进。其中特别提到英伟达的DPU，这种类型的硬件，几乎可以代表数据中心的某一个发展方向。

这个议题甚至恰好能够解答，英伟达为何要收购Arm，以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上，英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题…..(点击左下角阅读原文，查看详情）

Arm在数据中心的价值：黄氏定律背后，英伟达打的什么算盘？

https://www.eet-china.com/news/202012211126.html?eetc1221

时间：2020-12-21 作者：黄烨锋

英伟达DPU这种类型的硬件，几乎可以代表数据中心的某一个发展方向。这个议题甚至恰好能够解答，英伟达为何要收购Arm，以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上，英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题……

在Aspencore全球分析师共同发布的《2021年全球半导体行业10大技术趋势》一文中，有一项提到了，HPC数据中心专用加速的趋势递进。其中特别提到英伟达的DPU，这种类型的硬件，几乎可以代表数据中心的某一个发展方向。

这个议题甚至恰好能够解答，英伟达为何要收购Arm，以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上，英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题。

输入图片说明

“Arm已经取得了巨大成功，但他们获得的成功大部分集中在移动端，更多的机会在等待他们探索。Arm应当发挥显著作用的地方，还包括数据中心与PC。但这个市场的涉足其实并不简单，数据中心、云和PC领域是另一回事。”Jay Puri提到，“从技术上来看，Arm在这一领域是完全没问题的。很多探索中的例子都表明，技术不是问题。”

“在市场方面，数据中心未来的重要工作是围绕人工智能、加速计算的。英伟达在这个平台很成熟，我们有可用的完整堆栈，有所有必要的合作伙伴，生态系统庞大，有超过200万开发者；很多初创企业、行业研究都在进行中。”“一旦Arm成为英伟达的一部分，我们将能够促进Arm在数据中心取得成功。”

“这样一来，市场就会有x86之外可行的替代方案，不仅限于移动领域，数据中心、PC等领域都如此。竞争能够促进进步、推动创新。”这番话实则已经非常明晰地交代了，Arm对于英伟达的主要价值在哪里：数据中心（和可能的PC）。本文尝试扩展HPC数据中心的专用加速趋势这一话题，亦可从中看看英伟达的野心有多大。

Arm对数据中心的作用有多大

2020年，HPC领域在相关芯片架构层面发生过一件大事：富士通（Fujitsu）发布名为富岳（Fugaku）的超算，其中的芯片为A64FX。这颗芯片在微架构层面其实是很有意思的。首先它整体上采用monolithic的设计，而不是现在流行的chiplet（比如AMD Epyc）。它既像CPU，又有点儿像GPU，而且片上还集成了HBM2存储——这样一来，A64FX的板卡就比较奇特：板卡上没有RAM，因为已经集成在了片上（chip level）。

输入图片说明

我们来简单看看这颗芯片微架构的独特之处。从上面这张图来看，核心周围的4个die就是HBM2存储，连接到四个HBM2 Interface之上，算是与核心靠得很近了，所以主内存到L2 cache的带宽就会比一般的HPC系统要明显更大（1024GB/s），单芯片的容量也达到了32GiB。

核心部分，A64FX整体上是基于Arm v8.2A架构的，扩展了SVE（Scalable Vector Extensions）——这种扩展是专门针对HPC科学负载矢量化准备的，属于NEON扩展指令集的补充。A64FX具体采用的是512bit SVE。这一点其实并没有什么。

这颗芯片真正有意思的地方是，它并没有什么加速器，die上也没有集成专门的GPU之类的处理器。其行为方式很像GPU，但却是颗实实在在的通用CPU。A64FX内部总共分成4组，分别是4个CMG（core memory group），每组13个核心（所以总共是52个核心，其中48个是活跃核心，其余4个为OS以及冗余策略预留）。CMG内部每个核心依次连接，而不同CMG之间采用类似于Intel Skylake的那种Ring Bus环形总线连接。作为一颗通用处理器，A64FX就是可以跑常规操作系统的，虽然它内部看起来还挺像英伟达的GPU。

输入图片说明

这颗芯片在设计上就是为HPC负载准备的，尤其是科学模拟、数据分析等。现在比较主流的方案，是用GPU来加速这些活儿，主要是因为GPU能够灌入大量数据，并做高度并行计算，然后同时输出大量结果。事实上，HPC的存储带宽需求一直很大，包括气象模拟、各种流体力学、量子力学等研究，以及计算机视觉、机器学习一类数据分析工作，都要求大量数据的迁移，在大量核心之间通讯、共享。

A64FX从设计思路上，也能干这样的工作：持续做SIMD计算，而且还有不小的片上存储资源和相当大的传输带宽。另外富士通开发了一种名为“Tofu”的互联方案，据说在能效、带宽和延迟方面表现都非常好，宣传上提到是显著优于AMD和Intel的方案的（据说是比Xeon/Epic，有10倍的能效优势）。此外，SVE矢量扩展，及其对FP16、FP32等数据类型计算的原生支持，都令其相当适用于HPC负载。

从已公开的数据来看，A64FX单芯片在性能上也远优于Intel Xeon Platnium 8168、NEC SX-Aurora这类方案，以及部分测试优于Nvidia上代的Tesla V100。其实相较传统通用CPU的性能优势还是意料之中的。因为A64FX从设计上来看，是明显更偏向专门针对HPC做了"domain-specific"的优化的，与此同时还保有了CPU的通用性。

输入图片说明

用简单的话来概括A64FX的思路，它很像把HPC方案中CPU+GPU+RAM的传统组合凝聚到一起，另外也有比较全面的大规模扩展方案。这颗芯片预计2021年会出货给亚马逊、谷歌、微软这些云供应商。

当然不能就性能、效率，以及其设计就简单认定，A64FX就一定能够在HPC领域掀起多大的浪，生态构建也属于重要的工作。但很显然，Arm在HPC、数据中心之上发光发热，至少就技术、性能层面来看，是没有任何问题的；而且Arm具备了相当的弹性，是x86平台可能无法给予的；另一方面，Arm在端侧正在对x86发起新一轮猛攻，这可能也将有助于Arm在数据中心的生态构建。

GPU在数据中心的发展令人咂舌

富岳以及A64FX的发展思路未必就代表了数据中心的未来，电子科技及半导体领域从来不是效率、性能说了算的，而且我个人也觉得A64FX在微架构层面虽然有创新，但它作为一种通用芯片，在专用计算的"domain-specific"这一点上仍然可轻易被超过；比如几个月前，Graphcore二代IPU的发布会就特别提到了，算力相较A64FX的超越。

老祖宗构建起来的架构，其实很难在短期内被轻松推翻。只不过传统CPU+GPU+RAM的发展方向，本身就在不停发生变化。就好像多年前应该不会有太多人想到，GPU、FPGA加速卡这类硬件可以在数据中心活得这么滋润。

英伟达最伟大的发明，大概就是CUDA和GPGPU了。这将GPU扩展到了更多市场。2016年黄仁勋在GeForce 1080 Ti发布会上提到最多的词还是rendering和graphics；但在2020年GeForce 30系列GPU的发布会上，Graphics这个词被提及的次数却远远少于RT core、AI等。这表明英伟达的GPU市场，早就扩展到了游戏、图形计算之外。

即便AMD刚刚发布的Radeon GPU在性能上将近做到与Ampere架构GeForce的齐头并进，AMD Radeon的市场与英伟达依然是不可同日而语的。

我在去年GTC China的报道中提到，2015-2019年英伟达的营收增长速度之快，令这家公司不像是个已经步入成熟期的企业。这主要是源于GPU在数据中心业务上的风光正盛。而且这个趋势在2020年竟然还在持续，甚至可以用“飙车”来形容。

输入图片说明

英伟达数据中心业务云霄飞车般的营收增长

英伟达最新一季（FY2021Q3）的财报显示，公司季度营收47.3亿美元，上涨57%。值得注意的是，其中数据中心业务的营收同比增长达到了162%——而且这还是在持续多年增长之后的持续增长。在谷歌云、微软Azure之后，AWS、Oracle Cloud、阿里云都相继宣布了Nvidia A100可用；选择英伟达平台针对AI相关服务做AI inference越来越多；当然英伟达数据中心业务的强势，也离不开Mellanox在InfiniBand等方面的增长。

相较之下，英伟达游戏业务37%的增速虽然也很亮眼，却在增长性上相形见绌了。专业视觉以及汽车业务的营收下滑，也就显得没那么重要了。去年的分析文章中，我曾大致估算数据中心业务占到英伟达整体营收的1/4，仅次于营收占比过半的游戏业务。今年的情况预计又会发生较大变化。以这种成长速度，数据中心很快就会成为可与其游戏业务相提并论、并驾齐驱的业务了。

这其实很大程度上代表了数据中心市场，GPU这类型的硬件已经占据了多重要的地位。可见市场对于性能和效率的渴求还是疯狂的，何况数据中心市场客观上还受到了新冠疫情的推动。

那么这和Arm又有什么关系呢？

DPU是英伟达野心的承载

英伟达也在GTC China期间宣布，多家中国顶级云服务提供商及系统制造商采用其A100 Tensor Core GPU。阿里云、百度智能云、滴滴云、腾讯云等云服务提供商都推出了搭载A100的云服务及GPU实例。A100是英伟达这一代Ampere架构，定位在数据中心平台的GPU产品，被英伟达称作“最强性能的端到端AI以及HPC数据中心平台”。

Ampere架构是英伟达在2020年年中正式官宣的。消费端的GeForce 30系列，以及上述A100都可以说是Ampere架构产品。实际上英伟达如今在热推的另一类产品，文首提到的DPU也有Ampere架构GPU的身影：BlueField-2X DPU板卡上就加入了一枚Ampere架构的GPU，用于AI加速。

这里的DPU是相当值得一谈的。抛开Ampere架构不谈，在前两个月的GTC大会上，英伟达正式宣布了BlueField-2/2X DPU（data processing units）的推出。DPU这个概念最早应该是Mellanox提出的。英伟达在新闻稿中提到，DPU采用data-center-infrastructure-on-a-chip架构，“突破性的网络、存储和安全性能”。直译过来，就是芯片上的数据中心基础设施。

本月GTC China期间，好几篇来自英伟达的新闻稿都提到了DPU或相关信息：包括公有云厂商Ucloud基于英伟达的BlueField DPU研发，“并于上半年推出的裸金属物理云1.0产品，通过DPU集成的多核Arm CPU快速将物理云基础架构软件从x86迁移到DPU中”。而且“Ucloud进一步于下半年研发并推出裸金属物理云2.0产品”，其中也包含了BlueField DPU本身的更多特性。

在Mellanox被英伟达收购之前，DPU实际上是Mellanox针对下一代SmartNIC的一个设想，将其networking的技术，和Arm做结合，分担主系统的更多工作，包括软件定义网络、软件定义存储、专用加速引擎等。2019年BlueField产品很低调地发布了。英伟达后续对BlueField-2，也就是DPU二代产品的定位有了进一步的延展。

输入图片说明

所以今年发布的其实是二代DPU。BlueField 2芯片本身包含8个Arm Cortex-A72核心，以及两个VLIW加速引擎；然后再加上Mellanox最拿手的针对网络连接的ConnectX-6 DX NIC（网络适配器）。

简单来说，DPU是数据中心的另一个domain-specific加速器，从主CPU分担networking、存储和安全负载。 这其实是英伟达在GPU产品于数据中心市场大获成功后的又一步扩张举措。与此同时进一步消除x86 CPU在数据中心的重要性。

输入图片说明

用Mellanox的话来说，DPU是将计算功能，与数据靠得更近了（data-centric architecture），取代以前还要把数据专门移到计算所在位置的那种模式（compute-centric architecture）。

更具体地说，BlueField-2相对而言是达成了这个目标的；而BlueField-2X则是在板卡上给DPU再加上了Ampere架构的GPU（和EGX A100好像有点类似）——英伟达称其为AI-powered DPU。此处多加的GPU价值主要是实时的安全分析，包括识别异常流量，加密流量分析，识别恶意行为，以及动态安全组合、自动响应等。

输入图片说明

至此，其实英伟达已经有能力将整个系统，包括CPU、NIC、加速器、安全都放到一个SoC上，再搭配自家GPU，基本上是可以无视x86的存在的。从英伟达公布的DPU产品路线图来看，后续还会有BlueField-3和4的问世。

BlueField-3其实是加强版的BlueField-2。而BlueField-4则计划在单芯片性能上就打败现有DPU+GPU的组合。英伟达计划BlueField-4应可提供400 TOPS的AI算力。如此一来，从GPU在数据中心做AI、数据分析及HPC，到如今DPU接管网络、存储、安全等关键任务，以及将来DPU可能把这些加速的活儿都干了。

输入图片说明

DSP应用于网络安全的一个例子：当两名开发者使用Omnivers高吞吐流app进行实时的工作时，一台设备是Vmware Cloud Foundation + BlueField-2 DPU，另一台则是传统架构，在遭遇DdoS攻击时，两种架构的CPU占用率对比。右边这台服务器会因为数据包泛红，致工作被打断；而左侧服务器，DPU自己就能够识别并丢弃这些恶意数据包

与此同时，英伟达也推出了配套的DOCA软件栈，就类似于GPU世界的CUDA那样。英伟达这两年一直在宣称自己是家软件公司。那么当为开发者提供SDK，这片市场的空前增长，就像现如今的GPU那样，是为英伟达真正统领数据中心市场的野心所在。

而且英伟达现有的软件开发能力，还能持续为DOCA添砖加瓦，包括SDK扩展支持、各种库的增加：眼见CUDA如此的兴盛即知DPU将来的潜力了。与此相较，媒体渲染的什么黄氏定律（Huang’s Law）都不过是为此服务的营销宣传罢了。

输入图片说明

Arm将在此间扮演什么样的角色？回想文首Jay Puri在GTC China首日的圆桌论坛上的发言，是否变得明朗许多？在DPU的版图上，Mellanox早已是英伟达麾下一员，就剩Arm了。想到此处，感觉英特尔在现如今的时代格局下，还真是有点儿“谁都在针对我”的处境。

这或许也能一定程度解释，为何AMD要收购赛灵思。另外，Jay Puri发言中还提到了，Arm理应在PC领域也发光发热，这是否是在暗示，英伟达或许还有在消费市场一搏的打算？

责编：Luffy Liu

输入图片说明

黄烨锋

欧阳洋葱，编辑、上海记者，专注成像、移动与半导体，热爱理论技术研究。

进入专栏

RV4Kids/Shiliu PI, Shiliu Silicon, Shiliu Si, 石榴核.md

收录！

芯片的追赶还将是任重道远之路！

RV少年 (RV4Kids) / RVWeekly

内容风险标识

iPhone芯片前传：苹果与Arm的那段过往

80年代：苹果的Aquarius计划

90年代初：苹果与Arm的历史渊源

90年代中期：苹果与StrongARM

世纪交替：芯片团队成形

前iPhone时代：苹果芯片问世

参考来源

评论 (3)

Arm的十年PC征程，和微软的“暧昧”

微软的“红杏出墙”

走了10多年，才开始走近PC主流视野

PC之外的“高性能”扩展

Arm在数据中心的价值：黄氏定律背后，英伟达打的什么算盘？

Arm在数据中心的价值：黄氏定律背后，英伟达打的什么算盘？

Arm对数据中心的作用有多大

GPU在数据中心的发展令人咂舌

DPU是英伟达野心的承载

黄烨锋

RV少年 (RV4Kids) / RVWeekly .gitee-modal { width: 500px !important; }

内容风险标识

​iPhone芯片前传：苹果与Arm的那段过往

80年代：苹果的Aquarius计划

90年代初：苹果与Arm的历史渊源

90年代中期：苹果与StrongARM

世纪交替：芯片团队成形

前iPhone时代：苹果芯片问世

参考来源

评论 (3)

Arm的十年PC征程，和微软的“暧昧”

微软的“红杏出墙”

走了10多年，才开始走近PC主流视野

PC之外的“高性能”扩展

Arm在数据中心的价值：黄氏定律背后，英伟达打的什么算盘？

Arm在数据中心的价值：黄氏定律背后，英伟达打的什么算盘？

Arm对数据中心的作用有多大

GPU在数据中心的发展令人咂舌

DPU是英伟达野心的承载

黄烨锋

搜索帮助

RV少年 (RV4Kids) / RVWeekly

iPhone芯片前传：苹果与Arm的那段过往