同步操作将从 浪潮RISC-V研究小组/RVWeekly 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
原创 黄烨锋 电子工程专辑 今天
作者:黄烨锋
EET电子工程专辑原创
上个月月底,Arm宣布推出ARMv9,在AI、安全方面针对Arm家族IP有了未来10年的新规划。传言苹果即将发布的A15芯片很有可能会率先采用ARMv9指令集。这个消息的可信度虽然一般,但苹果率先抢跑Arm的新版指令,已经不是什么新鲜事了。
不光是近代苹果A14、A15这样的芯片,相较高通这类竞争对手都更早从Arm手中拿到ARMv8.4a/8.5a这种新规格,更具代表性的一件事还是在2011年10月,ARMv8首度亮相——Arm的64位时代正式开启。当年许多分析师认为,移动设备暂时用不着64位处理器,且基于桌面市场的经验,32到64位在移动设备上的迁移需要很久。
事实证明电子科技行业的历史经验往往并不靠谱,在Android阵营32位“真八核”搞得如火如荼的年代,苹果于2013年以令人惊讶的速度推出A7芯片,这是颗64位处理器,令当时的高通大乱阵脚。所以即便前不久Arm宣称联发科已经在准备ARMv9芯片,苹果大概率也是不会错过前期抢发的。
借此机会,本文期望谈一谈苹果与Arm的那段过往,是早在iPhone 4的A4(2010年)之前的一段历史,称其为“前iPhone时代”大致上也就是这个意思了。从中也多少能够看到苹果在芯片设计上的历史积累。
苹果芯片团队广为人知的历史,应该是自苹果收购P.A. Semi之后。不过实际上,早在上世纪80年代,苹果就开始组建自家的定制芯片队伍了,谈苹果与Arm的关系也可以从这段历史开始讲起。
1986年前后,苹果对摩托罗拉的68K处理器始终是不满意的,当时苹果内部有管理团队(主要是Jean-Louis Gassée和Sam Holland)告诉公司CEO John Sculley,苹果在CPU方面应该掌握自己的命运。那个年代,以MIPS R2000为代表的RISC也才刚刚兴起。Aquarius计划在这样的历史背景下诞生了。(此前探讨苹果Mac转向Arm的文章曾谈到,苹果一度放弃摩托罗拉68K)
John Sculley前期也非常支持Aquarius计划,分拨人才和超级计算机(著名的花费了1500万美元的Cray超算)资源做支持。Aquarius计划的负责人是工程师Sam Holland。从1989年公布的文档来看[1],这颗名为Scorpius的CPU在规划上比较独特和激进,包括4核心、SIMD支持,还有多处理器互联通讯特性——这在那个年代显得如此“与众不同”。这项计划在苹果内部充满争议,一方面是因为投入巨大,另一方面则是公司内部许多人都认为苹果并不具备这样的技术实力。
一直到1988年,Aquarius计划也没搞出一颗实际的芯片。Sculley失去耐心,项目主管也换了人。该项目新上任的Al Alcorn当时是业界传奇——在雅达利设计出Pong游戏的大佬。Alcorn在拿下这个项目后,找到了微处理器专家Hugh Martin,询问苹果的Aquarius计划是否靠谱。Martin看完之后就表示,这个目标简直就是“ridiculous”。
这也算是苹果最初CPU计划的搁浅时刻了,Cray超算最终也被拿去做Macintosh的工业设计了。不过这项计划的资源储备后续也为Power Mac及配套的不少ASIC芯片设计奠定了基础。
推荐阅读:Arm的十年PC征程,和微软的“暧昧”
Arm自身的历史应该是众所周知的了:同在80年代Acorn RISC Machine项目(最初Arm全拼)开启,一种性能不怎么样但功耗很低、能效很高的架构问世。与Aquarius计划算是同期或前后脚,苹果开始与Acorn合作。并且在1990年11月27日,苹果、Acorn以及当时的芯片制造商VLSI Technologies共同组建了新公司,名为Advanced RISC Machines Ltd.。
这个时候ARM这三个字母,全拼就已经发生变化了。当时苹果出资获得新公司43%的股份。维基百科中提到,这个名字是苹果要求的;其前身Acorn其实并不希望用这个名字[2]。
1993年发布的苹果Newton MessagePad 100
后来苹果著名的失败产品“私人数字助理”Newton,就选择了Acorn的处理器。1993年Newton MessagePad问世,应该就是苹果的首款Arm设备了——虽然Arm真正改名叫做ARM Ltd.是在1998年IPO之时。值得一提的是,1993年Arm在业务方向上有比较大的变化,Arm开始做技术授权。这在当时还是相当罕见的。
那一年,TI(德州仪器)很快就成为了Arm芯片设计的授权客户。TI也说服了当时下游客户诺基亚登上Arm这艘船(1994年,诺基亚6110手机的发布应该是Arm IP授权在消费电子领域开推的重要标志)。这两个时期,无论是苹果自身在芯片领域的试错(包括1991年苹果、IBM、摩托罗拉共同组建的AIM联盟,基于Power指令集构建计算标准),还是苹果出资Arm,都是苹果与Arm产生联系的开始。
不过后来,当时间调拨到乔布斯重回苹果公司(2001年),为了让苹果渡过艰难期,乔布斯不仅撤销了不少产品线,而且选择了出售Arm股份。虽然并不知道当时有多少属于苹果的Arm股份被售出,不过到1999年2月,苹果手上实际持有Arm的股份是14.8%,大约值11亿美元。
Arm联合创始人Hermann Hauser此前曾在公开场合提过,乔布斯不在苹果的那段时间(90年代),苹果其实就已经出售了大量Arm股份[3]。出售的原因似乎也是当年苹果财务状况不佳,且出售时间处在Arm股价低点,算是不得已为之。当然我们现在知道,Arm如今的归属已与过去大不相同。
即便如此,90年代的苹果与Arm之间也始终存在着某种奇特的关联。当时美国一家颇具传奇色彩的芯片公司DEC(Digital Equipment Corporation)期望做低功耗处理器,不过DEC的工程师认为要基于DEC Alpha指令集来开发能够达到低功耗预期的处理器是不现实的。所以90年代中期,DEC开始对专注于低功耗的Arm产生兴趣。(Jim Keller大神1982-1998年就供职于DEC)
当时基于Arm的苹果Newton设备已经推向市场,所以DEC就主动接触了苹果,询问对于高性能Arm是否感兴趣。苹果工程师回复:“Phhht, yeah. You can’t do it, but, yeah, if you could we'd use it.”(你们做不来,不过要是你们能做的话,我们可能会用。)
于是DEC与Arm合作款、传说中的StrongARM就诞生了。StrongARM定位于对性能有更高要求,但仍在低功耗范畴内的嵌入式设备;所以StrongARM微架构之上出现了不少Arm架构不曾有的东西。StrongARM基于ARMv4指令集,利用DEC自家工具和制造工艺(DEC位于麻省的Hudson工厂0.35微米工艺),实现了性能至多5倍增长。后续苹果MessagePad 2000/2100、惠普Jornada掌上电脑、Psion 7系列等都有采用StrongARM处理器。
DEC特别在Palo Alto开设的设计中心,为StrongARM项目做出了重要支持。尤为值得一提的是,DEC从Arm获得的架构授权,令其能够基于Arm指令集设计自己的微架构,才有了StrongARM。在此之前Arm只提供核心IP授权,是不允许芯片厂商开发属于自己的微架构设计的[4]。这和现如今的苹果倒是十分相似。
1996年StrongARM微架构首款产品SA-110问世。这颗芯片曾一度为移动设备的最高性能微处理器代表。参与SA-110设计的有Daniel W. Dobberpuhl这样的大牛。
StrongARM和DEC的传奇在于,它后来对Intel产生了影响,技术层面又很大程度反哺了Arm,与此同时可一定程度认为是苹果当代芯片资源的早期储备。这些还将在后文中提到。1997年,DEC财务表现不佳,外界开始质疑StrongARM生产能力,选择StrongARM的客户因此减少。另外这一年,DEC和Intel打起了专利官司。法庭宣判两家公司签署10年的交叉授权协议。不过最终Intel以7亿美元收购了DEC的一部分,包括Hudson工厂以及两处开发业务(位于奥斯汀和耶路撒冷;另外DEC主体被Compaq收购)。
Intel也因此收获了StrongARM。很快Intel以StrongARM替代当时旗下的RISC处理器产品线。这段时间应算是Intel与Arm的蜜月期了,双方称得上互有补益。但步入21世纪以后,2003年Intel宣布以XScale取代StrongARM;2006年,XScale也被Marvell接手。
当年Intel对移动市场似乎始终不是很瞧得上眼,StrongARM/XScale在Intel看来,赚钱能力远不如PC平台的x86芯片。但这是另外一个故事了,后话是据Intel前CEO Paul Otellini所说,在苹果iPhone问世之前,Intel曾探讨过为其打造移动芯片的可行性。Intel不清楚苹果所需的芯片数量,而且认为苹果能给的价格过低。[5]
1999年6月,一家叫做PortalPlayer的公司成立。这家公司最初针对软件中MP3解码表现,评估了不同的RISC架构,包括MIPS、Arm等,最终他们选择了Arm。PortalPlayer当时设计的PP5001芯片,采用0.25微米工艺,集成了音频播放核心、LCD驱动、USB接口等。2000年,IBM和索尼都相中过这颗芯片。只是这颗芯片的性能实在不怎么样,而且存在一些影响产能的缺陷。
不久,PortalPlayer与eSilicon合作重新设计出了PP5002,采用双核90MHz ARM7TDMI(基于ARMv4,诺基亚历史上的大量手机都采用这个核心架构[6]),台积电0.18微米工艺制造。据说当时苹果为iPod选择芯片时,对9款不同的MP3芯片做了评估,包括Cirrus Logic、意法、TI等的产品,最终选择了PortalPlayer的PP5002。2001年10月,iPod发布大受好评。
以iPod当时软件方面的出彩设计、操控体验和续航表现,Arm芯片应该算是开启新苹果时代的见证者了,毕竟在此之前苹果正处在垂死挣扎的边缘。两个月12.5万台的iPod销量把苹果拉回到了正轨。PortalPlayer当时说苹果下的订单,是原本预期的100倍。2004年PortalPlayer随着iPod热销,公司也在纳斯达克上市了。
不过2006年4月的某一天,三星突然宣布替代PortalPlayer成为未来iPod处理器供应商——当然同样是Arm架构。PortalPlayer方面十分懵圈地表示,苹果改换芯片供应商“没跟我们谈过”。虽然PortalPlayer有考虑过起诉苹果,但很快在这一年的11月,PortalPlayer被英伟达收购。而PortalPlayer也成为英伟达后来相当出名的Tegra移动处理器的起源,现在我们也知道Arm本身即将归属英伟达,那又是另一个故事了。
苹果与PortalPlayer合作同期,2003年美国一家fabless半导体公司P.A. Semi成立。这家公司正是前文提到的DEC公司大牛、StrongARM微架构领衔设计人员Daniel W. Dobberpuhl创办的。事实上,DEC此前被收购后,其半导体业务遗产也算是四处开花了,P.A. Semi是其中的一个。
P.A. Semi专注的方向是Power指令集处理器。当时曾一度有传言说,苹果可能会成为P.A. Semi所推处理器的重要买家,毕竟苹果此前是AIM联盟的一员。2005年乔布斯在开发者大会上宣布Mac从PowerPC转往Intel处理器,这一传言自然也就被扔进历史垃圾堆了。
但是2008年4月,苹果宣布收购P.A. Semi。如前所述这一时间点,其实苹果已经抛弃Power ISA处理器了,旗下全线产品都已经转往x86和Arm。这一年的WWDC开发者大会上,乔布斯表示P.A. Semi的工程师们会和苹果一起,为iPod、iPhone以及未来的移动设备打造芯片。(另外在2008年年初,Jim Keller加入了P.A. Semi,即随后也就成为了苹果的一员)[7]
这是苹果当代芯片梦之队构建的最初阶段。此番兜兜转转,苹果最终还是和Arm走在了一起。从乔布斯回到苹果,并在iPod设备之上采用Arm芯片就已经开始。苹果80年代的芯片设计团队、九零年代初促成Arm创立(以及与摩托罗拉、IBM共同组成AIM联盟)、90年代中期与StrongARM的关联,和21世纪收购P.A. Semi,始终与Arm有着千丝万缕的联系。
在这个过程中苹果自己早期的芯片团队也始终有表现,比如说Newton上的ASIC芯片,以及Mac设备上与IBM合作打造的北桥部分。只不过到收购P.A. Semi,苹果打造一颗完整处理器的意愿也才有了机会。
后面的故事,大部分人就应该都知道了。不过在P.A. Semi全面发挥作用之前,三星与苹果之间的合作也当属苹果芯片问世之前重要的过渡事件。三星最早为2007年问世的iPhone提供了S5L8900处理器(APL0098)。这颗芯片采用90nm工艺,412MHz ARM1176JZF-S核心,外加Imagination的PowerVR MBX Lite GPU。
在iPhone 4之前,苹果用Arm处理器IP和三星的库做RTL级的SoC设计。三星按照苹果的RTL规格,总共给苹果做了3款处理器,包括两款面向iPhone的处理器和一款面向iPod Touch的处理器。
到第四款SoC芯片之时,苹果就打算做完整的SoC设计了。苹果准备让原有的逻辑芯片设计团队,外加收购的P.A. Semi一起来设计属于自己的Arm芯片。不过自2008年苹果与Arm签署授权协议,让原P.A. Semi团队开发一款基于ARMv7的芯片,通常需要2-3年甚至更久的时间。
因此,苹果在2010年相当低调地收购一家名为Intrinsity的公司,来加速Arm芯片设计[8]。2009年Intrinsity宣布基于Arm Cortex-A8的Hummingbird核心,基于三星45nm工艺及Intrinsity自己的Fast14方法。Intrinsity宣称其半定制方法能够在最快4个月的时间里产出SoC设计。2010年初,苹果果然宣布推出应用了苹果A4芯片的iPad平板问世。
也是自iPad初代和iPhone 4问世,苹果就正式踏上了Arm芯片设计之路;并且有了自iPhone 5开始,在微架构层面与Arm同期“公版设计”差异越来越大,并将其他芯片设计厂甩在身后的新发展;最终直到今年,将自研Arm指令集的芯片应用到包括Mac在内的全线产品之上。回看这番折腾,苹果M1芯片如今的传说实在不是一朝一夕达成的,苹果与芯片之间至少磨合了几十年。
推荐阅读:Arm的十年PC征程,和微软的“暧昧”
[1] Apple's Scorpius CPU (Aquarius project) - 1989, Apple Computer
https://archive.org/details/scorpius_architecture
[2] Arm Ltd., Wikipedia
https://en.wikipedia.org/wiki/Arm_Ltd.
[3] This Is How ARM Saved Apple From Going Bust in the 90s, John Brownlee, Cult of Mac
https://www.cultofmac.com/97055/this-is-how-arm-saved-apple-from-going-bust-1990s/
[4] StrongARM - Microarchitectures - DEC , WikiChip
https://en.wikichip.org/wiki/dec/microarchitectures/strongarm
[5] How Apple Became a Force in the Semiconductor Industry, Daniel Nenni, SemiWiki
https://semiwiki.com/ip/arm/7960-how-apple-became-a-force-in-the-semiconductor-industry/
[6] ARM7, Wikipedia
https://en.wikipedia.org/wiki/ARM7
[7] P.A. Semi, Wikipedia
https://en.wikipedia.org/wiki/P.A._Semi
[8] Intrinsity likely powers Apple's A4 iPad processor,AppleInsider
https://appleinsider.com/articles/10/04/21/intrinsity_likely_powers_apples_a4_ipad_processo
原创 黄烨锋 电子工程专辑 3月16日
作者:黄烨锋
EET电子工程专辑原创
早年有个遥远的传说,80年代首款由英国Acorn Computers设计的微处理器ARM1问世。ARM1芯片后续是作为BBC Micro微计算机中的协处理器存在的,当时是BBC Computer Literacy Project研究开发项目,并未商业化。
据说这颗芯片的流片原型在首次测试的时候,顺利跑起来了,但电流计显示不出读数。结果发现芯片根本就没上电,那怎么跑起来的?原来这颗芯片是从测试板I/O的漏电获得的电——低功耗低到这个程度是万没想到的。Acorn原本预设了ARM1是颗低功耗芯片,功率设定1W,但实际最终平均功耗低于100mW。
来源:Twitter @kenshirriff
这个小“事故”应该也为Arm在低功耗芯片领域发展,奠定了传奇般的基础。Arm这家公司后续发展,似乎也始终围绕着“低功耗”展开——早年这种低功耗并不被重视,直到如今的电池供应设备如此之多,智能手机、可穿戴及各种IoT设备,海量采用Arm架构的芯片。
3月18日将由Aspencore在上海举办的2021中国IC领袖峰会上,安谋科技(中国)执行董事长兼首席执行官吴雄昂就将以“搭载新时代大计算平台”为题,谈Arm在除低功耗领域之外,更大范围的发展。
在此之前,不妨回顾一下Arm在低功耗另一面,高性能领域的探索和潜力展望。PC个人计算机,就是Arm试探了十多年,才初见成效的一个方向。可见从低功耗,走向高性能有多不易。而这刚刚开启的一步,大概已经是成功的一半了。本文主体以PC为观察角度,来谈谈Arm在低功耗领域之外持续了十多年的尝试。
近代PC的主流,也就是以macOS和Windows这两个操作系统为代表了。如果只讨论桌面(及服务器)平台的Windows,微软的这个操作系统是有多指令集支持的历史的。Windows NT 4.0及后续更新除了支持x86以外,也对PowerPC、DEC Alpha和MIPS提供支持。不过从Windows 2000开始,微软就彻底抛弃了x86以外的其他平台。Windows早年历史和Arm关联不大(除了像Windows CE这种嵌入式系统),毕竟桌面与服务器平台那时更需求高性能,而对功耗不像现在这么敏感。
微软与Arm比较众所周知的融合发生在2011年的CES展上,算起来刚好走过了10年。微软在展会上首次展示了Windows RT操作系统(实则为NT内核对Arm的支持)——这是个彻头彻尾基于32位Arm架构的PC操作系统,代号Windows on Arm(WoA)。次年10月,Windows RT与Windows 8一同发布。从这个时候开始,微软似乎就一直在动“脚踩两只船”的歪脑筋。
Windows RT的“RT”两个字母部分是指runtime。微软的理想是在搭建的Windows RunTime运行时之上,同时实现对x86和Arm的支持(上图中的Metro style Apps)。Windows 8及当时的Windows Phone 8也有这么个runtime;这是微软最早期望实现不同平台生态统一化的设想。不过最早的Windows RT作为操作系统,仅支持Arm应用。而且微软仿照iOS和Android生态,令Windows RT用户仅可从应用商店下载app,以实现对应用生态的全面掌控。
微软还专门推出了搭载Windows RT系统的Surface设备,延续了两代。当年的Surface初代采用基于Arm架构的英伟达Tegra 3处理器,算是真正意义上Arm入驻PC生态的开端。不过微软对Arm生态的三心二意,以及应用商店几乎没有像样的应用,传统的x86应用又完全不支持,让Windows RT很快宣告了终结。微软还因此遭受了9亿美元的亏损。(Windows RT的终结,另一方面与当时Intel开始和微软大力推9英寸以下Windows山寨设备有关)
2012年的Tegra 3属于英伟达在移动处理器领域的早期作品,这颗SoC以Cortex A9 4+1的设计,在当时也算个异类了。彼时的Arm处理器应用到Windows PC设备算是新鲜事,只不过那个时期的Arm架构处理器在性能上,与x86仍不在一个维度。
Windows RT虽然终结,但其中的runtime为如今Windows 10 on Arm奠定了重要的基础,这是后话了。事实上在此期间,微软还有过一些同类尝试,比如说2017年发布的Windows 10S。Windows 10S虽然并不定位在基于Arm,但严格限定了仅可从微软商店下载app。按照微软的说法,这个系统是为教育市场开发的,主要用于狙击Chrome OS上网本。但次年10S就被放弃。
这些尝试无一不表明,微软对iOS、Android一类生态的眼馋从未停止过。好好的,微软究竟为何要从深耕多年的x86生态“红杏出墙”,大肆向Arm表达“爱意”?我想其中至少有几个原因:
其一,Windows原有生态相对混乱。包括系统安全性差,冷不防就被人植入木马;且Windows应用于入门级硬件的体验很差,一水的Atom上网本实在不怎么样,这与Windows臃肿的生态是分不开的。微软因此期望牢牢掌控应用生态,这是Windows RT、Windows 10S出现的原因。
其二,转向Arm理论上可以让OEM厂商获得更高利润空间,戴尔、联想这些企业会有更强的意愿做推广。而且新生态下,廉价设备不需要绑一大堆垃圾软件出售,用户体验可获提升。
其三,在疫情出现以前,PC行业已长期停滞不前,PC出货量连年下降;行业需要技术上的强心针来推一把。
PC出货量下滑又是个庞大的话题了,与本文相关的原因至少包括PC平台本身缺乏创新,Intel/AMD此前十多年的竞争实在是有些不思进取。智能手机、平板的出现也事实上拉低了很多人对PC的依赖,像iPad Pro这样的设备变得既能轻度办公,续航、流畅度、性价比各方面都优于PC。
可能还有一个重要原因,在微软前CEO鲍尔默卸任后,新任CEO纳德拉很快就调整了微软的策略,微软的每个产品线独立发展。所以2014年Office就全面支持iOS,随后微软就成了苹果最佳开发者,M1芯片MacBook发布会上,苹果称微软是“我们的朋友”……微软作为生产力工具界的扛把子,纳德拉的策略也实实在在影响到了PC的销量。
上面这张图是国外Wikibon去年上半年预测的PC出货量变化。当然这个预测实则并未考虑到疫情对PC行业的刺激作用(以及缺芯的影响)。但在大方向上,Arm能够极大推升PC出货量的上扬是共识。
这就相关第四点了,即Arm与生俱来的低功耗属性,令其格外适用于笔记本这样的移动PC设备。基于Arm芯片的笔记本设备,续航是真正的一整天,与x86笔记本续航不可同日而语。加上微软系统层面的努力,以及PC设备形态可能发生变化(如折叠屏笔记本),PC体验能够再上一个台阶。Arm芯片的发展,尤其性能上的跨越式进步、生态的逐步完善,在此又是一个重要话题。
事实上,Arm阵营这边在这10多年间也从未放弃过登陆PC平台。除了前文提到的Arm与微软积极合作,还包括高通这样的芯片设计商期望实现Android系统的PC化努力(罗永浩的Smartisan TNT就得到了高通的大力支持)。只不过起码这10年间,Arm针对PC平台的攻势,都从未真正成功过。
这也是多方面原因导致的。第一自然就是x86生态根深蒂固,难以在短期内撼动;第二,Arm在苹果M1(和骁龙8cx)之前,也的确没有真正拿得出手、能在性能上与x86相较的PC处理器;第三,微软在两个生态间摇摆不定,想要拥抱Arm的同时,又舍不得昔日x86,这也成为Arm真正搭上PC这艘船的重要阻碍。
今年MWC上海展会上,高通展示的骁龙8cx笔记本,不仅是微软自己的Surface Pro X,还包括三星、联想等OEM厂商的多款设备
即便是现在,其中第三个原因都仍然存在。不过随着微软再再再次与Arm合作,新版Windows 10 on Arm的成熟度,以及如今的Arm芯片,已经和当年大不一样了。前两个问题正被逐渐解决。微软这边,当年的Windows RT就积累了不少经验。
Surface Pro X设备就是Windows 10 on Arm最佳实践。这台设备采用高通8cx处理器,单系统本身及微软官方应用(如Office、Edge)使用体验都很好,续航表现远超x86版本的Surface,且设备不带风扇,还更轻薄。只不过由于生态问题,Surface Pro X运行x86应用时,x86->Arm转译成本高,效率非常悲惨。
微软SQ1,即骁龙8cx
Windows 10 on Arm的大方向思路未变,即在Windows Runtime之上,要同时跑x86和Arm应用。在所有Arm、x86平台的Windows设备上,提供通用API。这是很理想的一种开发设定,微软称其为UWP(Universal Windows Platform),不需要管下层处理器架构。而UWP应用又会全数上架至官方应用商店。不过即使到目前为止,微软UWP的开发响应者都仍然不多。
所以针对传统x86应用,微软也开发了x86->Arm的模拟器,让以前的很多x86软件也能跑在Arm版Windows 10之上。要说微软的动作还真是相当缓慢,不谈32位应用的WOW64模拟器效率很低——Adobe全家桶这样的软件跑起来几乎就是灾难;而且64位应用模拟器迟迟未进入正式版,现在还在Windows预览版通道中(据说效果不错)。
不过Windows 10 on Arm早就比当年的Windows RT有了高得多的可用性。而且至少这次,生态构建效率稍高了一些,比如Adobe去年12月面向Windows平台发布了Arm版的Lightroom,Arm版Photoshop也处在beta状态了——总算开发者响应比以往更积极。更不用提,Arm版macOS一推出,主要开发者几乎是群起响应。
Arm这边,面向Windows笔记本的高通骁龙8cx如今走到了第二代,也是与微软合作的第二代产品。其低功耗表现实则无需赘言,Surface Pro X的超长续航即是佐证。关键应在于,这颗芯片在性能上和x86阵营的竞品比起来如何。如我们此前在M1芯片分析文章中谈到的那样,骁龙8cx的实际性能顶多是差强人意。
来源:NotebookCheck
不过毕竟骁龙8cx功耗水平才7W——这个功耗顶多也就是手机芯片的加强。以3.15GHz(Cortex-A76)的频率,达成与Intel LakeField(酷睿i5-L16G7)相似的单核性能成绩也在情理之中。值得一提的是,虽说Geekbench算不上什么靠谱的跑分工具,但看NotebookCheck的这些得分,Arm阵营这两年的整体水平实则都不再是10年前的孱弱样子了。
基于Arm指令集的苹果M1芯片的带来,则全面证实要用Arm来实现高性能,应用于PC是完全可行的,与此同时还能达成碾压x86阵营的低功耗水平。
总结一下Arm之所以过去10年之后才真正有能力在PC之上逐渐站稳,一方面在于微软和苹果作为操作系统供应商态度的转变;另一方面也是Arm在经过这么多年的发展后,在低功耗的基础上,还有与x86阵营在性能方面一战的能力——Arm、苹果、高通在其发展中都做出了不可磨灭的贡献。
事实上,微软如今对待Arm和x86两者的态度依然是暧昧的,Windows Runtime运行时的存在已说明一二。这始终是横亘在Arm面前的一座大山。不过微软正在规划新的Windows 10X系统,预计今年会随同部分便携式硬件推向市场。
Windows 10X是个试图抛弃历史遗留问题,加强用户体验和安全性的系统。系统不再原生支持传统的win32应用,而是将这些传统应用默认放到container中运行。当然它也支持Windows Runtime API。且似乎现有规划中的Windows 10X设备都基于Arm平台,这对Intel实在不是什么好消息。
当然以微软态度摇摆的传统,Windows 10X仍有可能是下一个Windows RT或者Windows 10S。但从中,我们还是能看到微软起码在试探重整Windows生态的可行方案,Arm则会是这个方案的基石。
与此同时,苹果以极其潇洒的姿态抛弃x86生态,开发生态全面转向自家的Arm芯片,实则也在无形中帮助微软加速了转舵过程。
最后可以谈一谈PC之外,Arm如今的扩张。IoT和更多低功耗芯片市场就不谈了,毕竟这一直都是Arm主场,比如说小至SSD固态硬盘主控芯片的Cortex-R系列实时核心,大到虽被唱衰但发展依然不错的Cortex-M系列面向IoT设备的低功耗芯片。
Arm对高性能计算市场的冲击也不是第一次了,只是此前尝试都不能算成功。和Arm在PC市场的发展一样,这两年Arm芯片在HPC、超算、数据中心市场的发展又构成了新局面。这其中有一些典型事迹:
比如说去年富士通发布名为富岳的超算,成为新的全球超算第一,其中的A64FX芯片就基于Arm v8.2A架构,这颗芯片的市场反响就相当好,规划中今年出货给亚马逊、谷歌、微软这些云供应商。再比如前年亚马逊宣布其自研Graviton2处理器应用于AWS EC2,就是采用Arm Neoverse N1架构。
去年9月,Arm又为Neoverse家族(面向基础设施)新增了V系列,比此前的N和E系列都更偏重性能,就像数据中心界的Cortex-X1,通过进一步打破PPA限制,在单核性能上对标x86高性能核心。
与此同时,如此前在《Arm在数据中心的价值:黄氏定律背后,英伟达打的什么算盘?》一文中所述。英伟达在数据中心的强势,预计未来会令主控CPU愈加边缘化。而英伟达对Arm的收购,则将Arm推向了进一步的大一统。在端到端部署Arm之际,也就是Intel退场的时候了。这应该也是吴雄昂要在中国IC领袖峰会上谈“搭载新时代大计算平台”的一部分。
不过Arm的这种发展策略因大环境与英伟达对其收购,亦存在不少变数。我们此前采访的不少企业就预想到了因收购可能产生的商业风险,不止一家企业都强调采用Arm与RISC-V并行的策略,且提及RISC-V在多个方向上的发展愈发成熟;一些重要的市场玩家都在筹备后手。但有挑战存在的市场,才有发展。即便是不思进取的x86平台,这两年都焕发了新活力。
更多有关IC设计的精彩内容,欢迎参与即将在3月18日于上海召开的2021中国IC领袖峰会,与专家面对面。点击下方阅读原文链接,报名参与此次盛会。
阅读原文
文章已于2021/03/16修改
电子工程专辑 2020-12-21
在Aspencore全球分析师共同发布的《2021年全球半导体行业10大技术趋势》一文中,有一项提到了,HPC数据中心专用加速的趋势递进。其中特别提到英伟达的DPU,这种类型的硬件,几乎可以代表数据中心的某一个发展方向。
这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题…..(点击左下角阅读原文,查看详情)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
https://www.eet-china.com/news/202012211126.html?eetc1221
时间:2020-12-21 作者:黄烨锋
英伟达DPU这种类型的硬件,几乎可以代表数据中心的某一个发展方向。这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题……
在Aspencore全球分析师共同发布的《2021年全球半导体行业10大技术趋势》一文中,有一项提到了,HPC数据中心专用加速的趋势递进。其中特别提到英伟达的DPU,这种类型的硬件,几乎可以代表数据中心的某一个发展方向。
这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题。
“Arm已经取得了巨大成功,但他们获得的成功大部分集中在移动端,更多的机会在等待他们探索。Arm应当发挥显著作用的地方,还包括数据中心与PC。但这个市场的涉足其实并不简单,数据中心、云和PC领域是另一回事。”Jay Puri提到,“从技术上来看,Arm在这一领域是完全没问题的。很多探索中的例子都表明,技术不是问题。”
“在市场方面,数据中心未来的重要工作是围绕人工智能、加速计算的。英伟达在这个平台很成熟,我们有可用的完整堆栈,有所有必要的合作伙伴,生态系统庞大,有超过200万开发者;很多初创企业、行业研究都在进行中。”“一旦Arm成为英伟达的一部分,我们将能够促进Arm在数据中心取得成功。”
“这样一来,市场就会有x86之外可行的替代方案,不仅限于移动领域,数据中心、PC等领域都如此。竞争能够促进进步、推动创新。”这番话实则已经非常明晰地交代了,Arm对于英伟达的主要价值在哪里:数据中心(和可能的PC)。本文尝试扩展HPC数据中心的专用加速趋势这一话题,亦可从中看看英伟达的野心有多大。
2020年,HPC领域在相关芯片架构层面发生过一件大事:富士通(Fujitsu)发布名为富岳(Fugaku)的超算,其中的芯片为A64FX。这颗芯片在微架构层面其实是很有意思的。首先它整体上采用monolithic的设计,而不是现在流行的chiplet(比如AMD Epyc)。它既像CPU,又有点儿像GPU,而且片上还集成了HBM2存储——这样一来,A64FX的板卡就比较奇特:板卡上没有RAM,因为已经集成在了片上(chip level)。
我们来简单看看这颗芯片微架构的独特之处。从上面这张图来看,核心周围的4个die就是HBM2存储,连接到四个HBM2 Interface之上,算是与核心靠得很近了,所以主内存到L2 cache的带宽就会比一般的HPC系统要明显更大(1024GB/s),单芯片的容量也达到了32GiB。
核心部分,A64FX整体上是基于Arm v8.2A架构的,扩展了SVE(Scalable Vector Extensions)——这种扩展是专门针对HPC科学负载矢量化准备的,属于NEON扩展指令集的补充。A64FX具体采用的是512bit SVE。这一点其实并没有什么。
这颗芯片真正有意思的地方是,它并没有什么加速器,die上也没有集成专门的GPU之类的处理器。其行为方式很像GPU,但却是颗实实在在的通用CPU。A64FX内部总共分成4组,分别是4个CMG(core memory group),每组13个核心(所以总共是52个核心,其中48个是活跃核心,其余4个为OS以及冗余策略预留)。CMG内部每个核心依次连接,而不同CMG之间采用类似于Intel Skylake的那种Ring Bus环形总线连接。作为一颗通用处理器,A64FX就是可以跑常规操作系统的,虽然它内部看起来还挺像英伟达的GPU。
这颗芯片在设计上就是为HPC负载准备的,尤其是科学模拟、数据分析等。现在比较主流的方案,是用GPU来加速这些活儿,主要是因为GPU能够灌入大量数据,并做高度并行计算,然后同时输出大量结果。事实上,HPC的存储带宽需求一直很大,包括气象模拟、各种流体力学、量子力学等研究,以及计算机视觉、机器学习一类数据分析工作,都要求大量数据的迁移,在大量核心之间通讯、共享。
A64FX从设计思路上,也能干这样的工作:持续做SIMD计算,而且还有不小的片上存储资源和相当大的传输带宽。另外富士通开发了一种名为“Tofu”的互联方案,据说在能效、带宽和延迟方面表现都非常好,宣传上提到是显著优于AMD和Intel的方案的(据说是比Xeon/Epic,有10倍的能效优势)。此外,SVE矢量扩展,及其对FP16、FP32等数据类型计算的原生支持,都令其相当适用于HPC负载。
从已公开的数据来看,A64FX单芯片在性能上也远优于Intel Xeon Platnium 8168、NEC SX-Aurora这类方案,以及部分测试优于Nvidia上代的Tesla V100。其实相较传统通用CPU的性能优势还是意料之中的。因为A64FX从设计上来看,是明显更偏向专门针对HPC做了"domain-specific"的优化的,与此同时还保有了CPU的通用性。
用简单的话来概括A64FX的思路,它很像把HPC方案中CPU+GPU+RAM的传统组合凝聚到一起,另外也有比较全面的大规模扩展方案。这颗芯片预计2021年会出货给亚马逊、谷歌、微软这些云供应商。
当然不能就性能、效率,以及其设计就简单认定,A64FX就一定能够在HPC领域掀起多大的浪,生态构建也属于重要的工作。但很显然,Arm在HPC、数据中心之上发光发热,至少就技术、性能层面来看,是没有任何问题的;而且Arm具备了相当的弹性,是x86平台可能无法给予的;另一方面,Arm在端侧正在对x86发起新一轮猛攻,这可能也将有助于Arm在数据中心的生态构建。
富岳以及A64FX的发展思路未必就代表了数据中心的未来,电子科技及半导体领域从来不是效率、性能说了算的,而且我个人也觉得A64FX在微架构层面虽然有创新,但它作为一种通用芯片,在专用计算的"domain-specific"这一点上仍然可轻易被超过;比如几个月前,Graphcore二代IPU的发布会就特别提到了,算力相较A64FX的超越。
老祖宗构建起来的架构,其实很难在短期内被轻松推翻。只不过传统CPU+GPU+RAM的发展方向,本身就在不停发生变化。就好像多年前应该不会有太多人想到,GPU、FPGA加速卡这类硬件可以在数据中心活得这么滋润。
英伟达最伟大的发明,大概就是CUDA和GPGPU了。这将GPU扩展到了更多市场。2016年黄仁勋在GeForce 1080 Ti发布会上提到最多的词还是rendering和graphics;但在2020年GeForce 30系列GPU的发布会上,Graphics这个词被提及的次数却远远少于RT core、AI等。这表明英伟达的GPU市场,早就扩展到了游戏、图形计算之外。
即便AMD刚刚发布的Radeon GPU在性能上将近做到与Ampere架构GeForce的齐头并进,AMD Radeon的市场与英伟达依然是不可同日而语的。
我在去年GTC China的报道中提到,2015-2019年英伟达的营收增长速度之快,令这家公司不像是个已经步入成熟期的企业。这主要是源于GPU在数据中心业务上的风光正盛。而且这个趋势在2020年竟然还在持续,甚至可以用“飙车”来形容。
英伟达数据中心业务云霄飞车般的营收增长
英伟达最新一季(FY2021Q3)的财报显示,公司季度营收47.3亿美元,上涨57%。值得注意的是,其中数据中心业务的营收同比增长达到了162%——而且这还是在持续多年增长之后的持续增长。在谷歌云、微软Azure之后,AWS、Oracle Cloud、阿里云都相继宣布了Nvidia A100可用;选择英伟达平台针对AI相关服务做AI inference越来越多;当然英伟达数据中心业务的强势,也离不开Mellanox在InfiniBand等方面的增长。
相较之下,英伟达游戏业务37%的增速虽然也很亮眼,却在增长性上相形见绌了。专业视觉以及汽车业务的营收下滑,也就显得没那么重要了。去年的分析文章中,我曾大致估算数据中心业务占到英伟达整体营收的1/4,仅次于营收占比过半的游戏业务。今年的情况预计又会发生较大变化。以这种成长速度,数据中心很快就会成为可与其游戏业务相提并论、并驾齐驱的业务了。
这其实很大程度上代表了数据中心市场,GPU这类型的硬件已经占据了多重要的地位。可见市场对于性能和效率的渴求还是疯狂的,何况数据中心市场客观上还受到了新冠疫情的推动。
那么这和Arm又有什么关系呢?
英伟达也在GTC China期间宣布,多家中国顶级云服务提供商及系统制造商采用其A100 Tensor Core GPU。阿里云、百度智能云、滴滴云、腾讯云等云服务提供商都推出了搭载A100的云服务及GPU实例。A100是英伟达这一代Ampere架构,定位在数据中心平台的GPU产品,被英伟达称作“最强性能的端到端AI以及HPC数据中心平台”。
Ampere架构是英伟达在2020年年中正式官宣的。消费端的GeForce 30系列,以及上述A100都可以说是Ampere架构产品。实际上英伟达如今在热推的另一类产品,文首提到的DPU也有Ampere架构GPU的身影:BlueField-2X DPU板卡上就加入了一枚Ampere架构的GPU,用于AI加速。
这里的DPU是相当值得一谈的。抛开Ampere架构不谈,在前两个月的GTC大会上,英伟达正式宣布了BlueField-2/2X DPU(data processing units)的推出。DPU这个概念最早应该是Mellanox提出的。英伟达在新闻稿中提到,DPU采用data-center-infrastructure-on-a-chip架构,“突破性的网络、存储和安全性能”。直译过来,就是芯片上的数据中心基础设施。
本月GTC China期间,好几篇来自英伟达的新闻稿都提到了DPU或相关信息:包括公有云厂商Ucloud基于英伟达的BlueField DPU研发,“并于上半年推出的裸金属物理云1.0产品,通过DPU集成的多核Arm CPU快速将物理云基础架构软件从x86迁移到DPU中”。而且“Ucloud进一步于下半年研发并推出裸金属物理云2.0产品”,其中也包含了BlueField DPU本身的更多特性。
在Mellanox被英伟达收购之前,DPU实际上是Mellanox针对下一代SmartNIC的一个设想,将其networking的技术,和Arm做结合,分担主系统的更多工作,包括软件定义网络、软件定义存储、专用加速引擎等。2019年BlueField产品很低调地发布了。英伟达后续对BlueField-2,也就是DPU二代产品的定位有了进一步的延展。
所以今年发布的其实是二代DPU。BlueField 2芯片本身包含8个Arm Cortex-A72核心,以及两个VLIW加速引擎;然后再加上Mellanox最拿手的针对网络连接的ConnectX-6 DX NIC(网络适配器)。
简单来说,DPU是数据中心的另一个domain-specific加速器,从主CPU分担networking、存储和安全负载。 这其实是英伟达在GPU产品于数据中心市场大获成功后的又一步扩张举措。与此同时进一步消除x86 CPU在数据中心的重要性。
用Mellanox的话来说,DPU是将计算功能,与数据靠得更近了(data-centric architecture),取代以前还要把数据专门移到计算所在位置的那种模式(compute-centric architecture)。
更具体地说,BlueField-2相对而言是达成了这个目标的;而BlueField-2X则是在板卡上给DPU再加上了Ampere架构的GPU(和EGX A100好像有点类似)——英伟达称其为AI-powered DPU。此处多加的GPU价值主要是实时的安全分析,包括识别异常流量,加密流量分析,识别恶意行为,以及动态安全组合、自动响应等。
至此,其实英伟达已经有能力将整个系统,包括CPU、NIC、加速器、安全都放到一个SoC上,再搭配自家GPU,基本上是可以无视x86的存在的。从英伟达公布的DPU产品路线图来看,后续还会有BlueField-3和4的问世。
BlueField-3其实是加强版的BlueField-2。而BlueField-4则计划在单芯片性能上就打败现有DPU+GPU的组合。英伟达计划BlueField-4应可提供400 TOPS的AI算力。如此一来,从GPU在数据中心做AI、数据分析及HPC,到如今DPU接管网络、存储、安全等关键任务,以及将来DPU可能把这些加速的活儿都干了。
DSP应用于网络安全的一个例子:当两名开发者使用Omnivers高吞吐流app进行实时的工作时,一台设备是Vmware Cloud Foundation + BlueField-2 DPU,另一台则是传统架构,在遭遇DdoS攻击时,两种架构的CPU占用率对比。右边这台服务器会因为数据包泛红,致工作被打断;而左侧服务器,DPU自己就能够识别并丢弃这些恶意数据包
与此同时,英伟达也推出了配套的DOCA软件栈,就类似于GPU世界的CUDA那样。英伟达这两年一直在宣称自己是家软件公司。那么当为开发者提供SDK,这片市场的空前增长,就像现如今的GPU那样,是为英伟达真正统领数据中心市场的野心所在。
而且英伟达现有的软件开发能力,还能持续为DOCA添砖加瓦,包括SDK扩展支持、各种库的增加:眼见CUDA如此的兴盛即知DPU将来的潜力了。与此相较,媒体渲染的什么黄氏定律(Huang’s Law)都不过是为此服务的营销宣传罢了。
Arm将在此间扮演什么样的角色?回想文首Jay Puri在GTC China首日的圆桌论坛上的发言,是否变得明朗许多?在DPU的版图上,Mellanox早已是英伟达麾下一员,就剩Arm了。想到此处,感觉英特尔在现如今的时代格局下,还真是有点儿“谁都在针对我”的处境。
这或许也能一定程度解释,为何AMD要收购赛灵思。另外,Jay Puri发言中还提到了,Arm理应在PC领域也发光发热,这是否是在暗示,英伟达或许还有在消费市场一搏的打算?
责编:Luffy Liu
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
登录 后才可以发表评论