4 Star 12 Fork 4

RV少年 (RV4Kids) / RVWeekly

 / 详情

​iPhone芯片前传:苹果与Arm的那段过往

已完成
拥有者
创建于  
2021-04-08 12:59

https://mp.weixin.qq.com/s?__biz=MjM5MTIwMjY1Mg==&mid=2649928364&idx=1&sn=d61ec5e228bc6aff77e3e4bd5006a55f

原创 黄烨锋 电子工程专辑 今天

作者:黄烨锋

EET电子工程专辑原创

上个月月底,Arm宣布推出ARMv9,在AI、安全方面针对Arm家族IP有了未来10年的新规划。传言苹果即将发布的A15芯片很有可能会率先采用ARMv9指令集。这个消息的可信度虽然一般,但苹果率先抢跑Arm的新版指令,已经不是什么新鲜事了。

不光是近代苹果A14、A15这样的芯片,相较高通这类竞争对手都更早从Arm手中拿到ARMv8.4a/8.5a这种新规格,更具代表性的一件事还是在2011年10月,ARMv8首度亮相——Arm的64位时代正式开启。当年许多分析师认为,移动设备暂时用不着64位处理器,且基于桌面市场的经验,32到64位在移动设备上的迁移需要很久。

事实证明电子科技行业的历史经验往往并不靠谱,在Android阵营32位“真八核”搞得如火如荼的年代,苹果于2013年以令人惊讶的速度推出A7芯片,这是颗64位处理器,令当时的高通大乱阵脚。所以即便前不久Arm宣称联发科已经在准备ARMv9芯片,苹果大概率也是不会错过前期抢发的。

借此机会,本文期望谈一谈苹果与Arm的那段过往,是早在iPhone 4的A4(2010年)之前的一段历史,称其为“前iPhone时代”大致上也就是这个意思了。从中也多少能够看到苹果在芯片设计上的历史积累。

输入图片说明

80年代:苹果的Aquarius计划

苹果芯片团队广为人知的历史,应该是自苹果收购P.A. Semi之后。不过实际上,早在上世纪80年代,苹果就开始组建自家的定制芯片队伍了,谈苹果与Arm的关系也可以从这段历史开始讲起。

1986年前后,苹果对摩托罗拉的68K处理器始终是不满意的,当时苹果内部有管理团队(主要是Jean-Louis Gassée和Sam Holland)告诉公司CEO John Sculley,苹果在CPU方面应该掌握自己的命运。那个年代,以MIPS R2000为代表的RISC也才刚刚兴起。Aquarius计划在这样的历史背景下诞生了。(此前探讨苹果Mac转向Arm的文章曾谈到,苹果一度放弃摩托罗拉68K)

输入图片说明

John Sculley前期也非常支持Aquarius计划,分拨人才和超级计算机(著名的花费了1500万美元的Cray超算)资源做支持。Aquarius计划的负责人是工程师Sam Holland。从1989年公布的文档来看[1],这颗名为Scorpius的CPU在规划上比较独特和激进,包括4核心、SIMD支持,还有多处理器互联通讯特性——这在那个年代显得如此“与众不同”。这项计划在苹果内部充满争议,一方面是因为投入巨大,另一方面则是公司内部许多人都认为苹果并不具备这样的技术实力。

一直到1988年,Aquarius计划也没搞出一颗实际的芯片。Sculley失去耐心,项目主管也换了人。该项目新上任的Al Alcorn当时是业界传奇——在雅达利设计出Pong游戏的大佬。Alcorn在拿下这个项目后,找到了微处理器专家Hugh Martin,询问苹果的Aquarius计划是否靠谱。Martin看完之后就表示,这个目标简直就是“ridiculous”。

这也算是苹果最初CPU计划的搁浅时刻了,Cray超算最终也被拿去做Macintosh的工业设计了。不过这项计划的资源储备后续也为Power Mac及配套的不少ASIC芯片设计奠定了基础。

推荐阅读:Arm的十年PC征程,和微软的“暧昧”

90年代初:苹果与Arm的历史渊源

Arm自身的历史应该是众所周知的了:同在80年代Acorn RISC Machine项目(最初Arm全拼)开启,一种性能不怎么样但功耗很低、能效很高的架构问世。与Aquarius计划算是同期或前后脚,苹果开始与Acorn合作。并且在1990年11月27日,苹果、Acorn以及当时的芯片制造商VLSI Technologies共同组建了新公司,名为Advanced RISC Machines Ltd.。

这个时候ARM这三个字母,全拼就已经发生变化了。当时苹果出资获得新公司43%的股份。维基百科中提到,这个名字是苹果要求的;其前身Acorn其实并不希望用这个名字[2]。

输入图片说明
1993年发布的苹果Newton MessagePad 100

后来苹果著名的失败产品“私人数字助理”Newton,就选择了Acorn的处理器。1993年Newton MessagePad问世,应该就是苹果的首款Arm设备了——虽然Arm真正改名叫做ARM Ltd.是在1998年IPO之时。值得一提的是,1993年Arm在业务方向上有比较大的变化,Arm开始做技术授权。这在当时还是相当罕见的。

那一年,TI(德州仪器)很快就成为了Arm芯片设计的授权客户。TI也说服了当时下游客户诺基亚登上Arm这艘船(1994年,诺基亚6110手机的发布应该是Arm IP授权在消费电子领域开推的重要标志)。这两个时期,无论是苹果自身在芯片领域的试错(包括1991年苹果、IBM、摩托罗拉共同组建的AIM联盟,基于Power指令集构建计算标准),还是苹果出资Arm,都是苹果与Arm产生联系的开始。

输入图片说明

不过后来,当时间调拨到乔布斯重回苹果公司(2001年),为了让苹果渡过艰难期,乔布斯不仅撤销了不少产品线,而且选择了出售Arm股份。虽然并不知道当时有多少属于苹果的Arm股份被售出,不过到1999年2月,苹果手上实际持有Arm的股份是14.8%,大约值11亿美元。

Arm联合创始人Hermann Hauser此前曾在公开场合提过,乔布斯不在苹果的那段时间(90年代),苹果其实就已经出售了大量Arm股份[3]。出售的原因似乎也是当年苹果财务状况不佳,且出售时间处在Arm股价低点,算是不得已为之。当然我们现在知道,Arm如今的归属已与过去大不相同。

90年代中期:苹果与StrongARM

即便如此,90年代的苹果与Arm之间也始终存在着某种奇特的关联。当时美国一家颇具传奇色彩的芯片公司DEC(Digital Equipment Corporation)期望做低功耗处理器,不过DEC的工程师认为要基于DEC Alpha指令集来开发能够达到低功耗预期的处理器是不现实的。所以90年代中期,DEC开始对专注于低功耗的Arm产生兴趣。(Jim Keller大神1982-1998年就供职于DEC)

当时基于Arm的苹果Newton设备已经推向市场,所以DEC就主动接触了苹果,询问对于高性能Arm是否感兴趣。苹果工程师回复:“Phhht, yeah. You can’t do it, but, yeah, if you could we'd use it.”(你们做不来,不过要是你们能做的话,我们可能会用。)

于是DEC与Arm合作款、传说中的StrongARM就诞生了。StrongARM定位于对性能有更高要求,但仍在低功耗范畴内的嵌入式设备;所以StrongARM微架构之上出现了不少Arm架构不曾有的东西。StrongARM基于ARMv4指令集,利用DEC自家工具和制造工艺(DEC位于麻省的Hudson工厂0.35微米工艺),实现了性能至多5倍增长。后续苹果MessagePad 2000/2100、惠普Jornada掌上电脑、Psion 7系列等都有采用StrongARM处理器。

DEC特别在Palo Alto开设的设计中心,为StrongARM项目做出了重要支持。尤为值得一提的是,DEC从Arm获得的架构授权,令其能够基于Arm指令集设计自己的微架构,才有了StrongARM。在此之前Arm只提供核心IP授权,是不允许芯片厂商开发属于自己的微架构设计的[4]。这和现如今的苹果倒是十分相似。

输入图片说明

1996年StrongARM微架构首款产品SA-110问世。这颗芯片曾一度为移动设备的最高性能微处理器代表。参与SA-110设计的有Daniel W. Dobberpuhl这样的大牛。

StrongARM和DEC的传奇在于,它后来对Intel产生了影响,技术层面又很大程度反哺了Arm,与此同时可一定程度认为是苹果当代芯片资源的早期储备。这些还将在后文中提到。1997年,DEC财务表现不佳,外界开始质疑StrongARM生产能力,选择StrongARM的客户因此减少。另外这一年,DEC和Intel打起了专利官司。法庭宣判两家公司签署10年的交叉授权协议。不过最终Intel以7亿美元收购了DEC的一部分,包括Hudson工厂以及两处开发业务(位于奥斯汀和耶路撒冷;另外DEC主体被Compaq收购)。

Intel也因此收获了StrongARM。很快Intel以StrongARM替代当时旗下的RISC处理器产品线。这段时间应算是Intel与Arm的蜜月期了,双方称得上互有补益。但步入21世纪以后,2003年Intel宣布以XScale取代StrongARM;2006年,XScale也被Marvell接手。

当年Intel对移动市场似乎始终不是很瞧得上眼,StrongARM/XScale在Intel看来,赚钱能力远不如PC平台的x86芯片。但这是另外一个故事了,后话是据Intel前CEO Paul Otellini所说,在苹果iPhone问世之前,Intel曾探讨过为其打造移动芯片的可行性。Intel不清楚苹果所需的芯片数量,而且认为苹果能给的价格过低。[5]

输入图片说明

世纪交替:芯片团队成形

1999年6月,一家叫做PortalPlayer的公司成立。这家公司最初针对软件中MP3解码表现,评估了不同的RISC架构,包括MIPS、Arm等,最终他们选择了Arm。PortalPlayer当时设计的PP5001芯片,采用0.25微米工艺,集成了音频播放核心、LCD驱动、USB接口等。2000年,IBM和索尼都相中过这颗芯片。只是这颗芯片的性能实在不怎么样,而且存在一些影响产能的缺陷。

不久,PortalPlayer与eSilicon合作重新设计出了PP5002,采用双核90MHz ARM7TDMI(基于ARMv4,诺基亚历史上的大量手机都采用这个核心架构[6]),台积电0.18微米工艺制造。据说当时苹果为iPod选择芯片时,对9款不同的MP3芯片做了评估,包括Cirrus Logic、意法、TI等的产品,最终选择了PortalPlayer的PP5002。2001年10月,iPod发布大受好评。

输入图片说明

以iPod当时软件方面的出彩设计、操控体验和续航表现,Arm芯片应该算是开启新苹果时代的见证者了,毕竟在此之前苹果正处在垂死挣扎的边缘。两个月12.5万台的iPod销量把苹果拉回到了正轨。PortalPlayer当时说苹果下的订单,是原本预期的100倍。2004年PortalPlayer随着iPod热销,公司也在纳斯达克上市了。

不过2006年4月的某一天,三星突然宣布替代PortalPlayer成为未来iPod处理器供应商——当然同样是Arm架构。PortalPlayer方面十分懵圈地表示,苹果改换芯片供应商“没跟我们谈过”。虽然PortalPlayer有考虑过起诉苹果,但很快在这一年的11月,PortalPlayer被英伟达收购。而PortalPlayer也成为英伟达后来相当出名的Tegra移动处理器的起源,现在我们也知道Arm本身即将归属英伟达,那又是另一个故事了。

输入图片说明

苹果与PortalPlayer合作同期,2003年美国一家fabless半导体公司P.A. Semi成立。这家公司正是前文提到的DEC公司大牛、StrongARM微架构领衔设计人员Daniel W. Dobberpuhl创办的。事实上,DEC此前被收购后,其半导体业务遗产也算是四处开花了,P.A. Semi是其中的一个。

P.A. Semi专注的方向是Power指令集处理器。当时曾一度有传言说,苹果可能会成为P.A. Semi所推处理器的重要买家,毕竟苹果此前是AIM联盟的一员。2005年乔布斯在开发者大会上宣布Mac从PowerPC转往Intel处理器,这一传言自然也就被扔进历史垃圾堆了。

但是2008年4月,苹果宣布收购P.A. Semi。如前所述这一时间点,其实苹果已经抛弃Power ISA处理器了,旗下全线产品都已经转往x86和Arm。这一年的WWDC开发者大会上,乔布斯表示P.A. Semi的工程师们会和苹果一起,为iPod、iPhone以及未来的移动设备打造芯片。(另外在2008年年初,Jim Keller加入了P.A. Semi,即随后也就成为了苹果的一员)[7]

这是苹果当代芯片梦之队构建的最初阶段。此番兜兜转转,苹果最终还是和Arm走在了一起。从乔布斯回到苹果,并在iPod设备之上采用Arm芯片就已经开始。苹果80年代的芯片设计团队、九零年代初促成Arm创立(以及与摩托罗拉、IBM共同组成AIM联盟)、90年代中期与StrongARM的关联,和21世纪收购P.A. Semi,始终与Arm有着千丝万缕的联系。

在这个过程中苹果自己早期的芯片团队也始终有表现,比如说Newton上的ASIC芯片,以及Mac设备上与IBM合作打造的北桥部分。只不过到收购P.A. Semi,苹果打造一颗完整处理器的意愿也才有了机会。

前iPhone时代:苹果芯片问世

后面的故事,大部分人就应该都知道了。不过在P.A. Semi全面发挥作用之前,三星与苹果之间的合作也当属苹果芯片问世之前重要的过渡事件。三星最早为2007年问世的iPhone提供了S5L8900处理器(APL0098)。这颗芯片采用90nm工艺,412MHz ARM1176JZF-S核心,外加Imagination的PowerVR MBX Lite GPU。

在iPhone 4之前,苹果用Arm处理器IP和三星的库做RTL级的SoC设计。三星按照苹果的RTL规格,总共给苹果做了3款处理器,包括两款面向iPhone的处理器和一款面向iPod Touch的处理器。

到第四款SoC芯片之时,苹果就打算做完整的SoC设计了。苹果准备让原有的逻辑芯片设计团队,外加收购的P.A. Semi一起来设计属于自己的Arm芯片。不过自2008年苹果与Arm签署授权协议,让原P.A. Semi团队开发一款基于ARMv7的芯片,通常需要2-3年甚至更久的时间。

输入图片说明

因此,苹果在2010年相当低调地收购一家名为Intrinsity的公司,来加速Arm芯片设计[8]。2009年Intrinsity宣布基于Arm Cortex-A8的Hummingbird核心,基于三星45nm工艺及Intrinsity自己的Fast14方法。Intrinsity宣称其半定制方法能够在最快4个月的时间里产出SoC设计。2010年初,苹果果然宣布推出应用了苹果A4芯片的iPad平板问世。

也是自iPad初代和iPhone 4问世,苹果就正式踏上了Arm芯片设计之路;并且有了自iPhone 5开始,在微架构层面与Arm同期“公版设计”差异越来越大,并将其他芯片设计厂甩在身后的新发展;最终直到今年,将自研Arm指令集的芯片应用到包括Mac在内的全线产品之上。回看这番折腾,苹果M1芯片如今的传说实在不是一朝一夕达成的,苹果与芯片之间至少磨合了几十年。

推荐阅读:Arm的十年PC征程,和微软的“暧昧”

参考来源

[1] Apple's Scorpius CPU (Aquarius project) - 1989, Apple Computer

https://archive.org/details/scorpius_architecture

[2] Arm Ltd., Wikipedia

https://en.wikipedia.org/wiki/Arm_Ltd.

[3] This Is How ARM Saved Apple From Going Bust in the 90s, John Brownlee, Cult of Mac

https://www.cultofmac.com/97055/this-is-how-arm-saved-apple-from-going-bust-1990s/

[4] StrongARM - Microarchitectures - DEC , WikiChip

https://en.wikichip.org/wiki/dec/microarchitectures/strongarm

[5] How Apple Became a Force in the Semiconductor Industry, Daniel Nenni, SemiWiki

https://semiwiki.com/ip/arm/7960-how-apple-became-a-force-in-the-semiconductor-industry/

[6] ARM7, Wikipedia

https://en.wikipedia.org/wiki/ARM7

[7] P.A. Semi, Wikipedia

https://en.wikipedia.org/wiki/P.A._Semi

[8] Intrinsity likely powers Apple's A4 iPad processor,AppleInsider

https://appleinsider.com/articles/10/04/21/intrinsity_likely_powers_apples_a4_ipad_processo

评论 (3)

袁德俊 创建了任务
袁德俊 关联仓库设置为RV4Kids/RVWeekly
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
袁德俊 修改了描述
展开全部操作日志

Arm的十年PC征程,和微软的“暧昧”

https://mp.weixin.qq.com/s?__biz=MjM5MTIwMjY1Mg==&mid=2649926460&idx=1&sn=2da6c2d549115ec71e1b7e373ec0b4f9

原创 黄烨锋 电子工程专辑 3月16日

作者:黄烨锋

EET电子工程专辑原创

早年有个遥远的传说,80年代首款由英国Acorn Computers设计的微处理器ARM1问世。ARM1芯片后续是作为BBC Micro微计算机中的协处理器存在的,当时是BBC Computer Literacy Project研究开发项目,并未商业化。

据说这颗芯片的流片原型在首次测试的时候,顺利跑起来了,但电流计显示不出读数。结果发现芯片根本就没上电,那怎么跑起来的?原来这颗芯片是从测试板I/O的漏电获得的电——低功耗低到这个程度是万没想到的。Acorn原本预设了ARM1是颗低功耗芯片,功率设定1W,但实际最终平均功耗低于100mW。

输入图片说明
来源:Twitter @kenshirriff

这个小“事故”应该也为Arm在低功耗芯片领域发展,奠定了传奇般的基础。Arm这家公司后续发展,似乎也始终围绕着“低功耗”展开——早年这种低功耗并不被重视,直到如今的电池供应设备如此之多,智能手机、可穿戴及各种IoT设备,海量采用Arm架构的芯片。

3月18日将由Aspencore在上海举办的2021中国IC领袖峰会上,安谋科技(中国)执行董事长兼首席执行官吴雄昂就将以“搭载新时代大计算平台”为题,谈Arm在除低功耗领域之外,更大范围的发展。

在此之前,不妨回顾一下Arm在低功耗另一面,高性能领域的探索和潜力展望。PC个人计算机,就是Arm试探了十多年,才初见成效的一个方向。可见从低功耗,走向高性能有多不易。而这刚刚开启的一步,大概已经是成功的一半了。本文主体以PC为观察角度,来谈谈Arm在低功耗领域之外持续了十多年的尝试。

微软的“红杏出墙”

近代PC的主流,也就是以macOS和Windows这两个操作系统为代表了。如果只讨论桌面(及服务器)平台的Windows,微软的这个操作系统是有多指令集支持的历史的。Windows NT 4.0及后续更新除了支持x86以外,也对PowerPC、DEC Alpha和MIPS提供支持。不过从Windows 2000开始,微软就彻底抛弃了x86以外的其他平台。Windows早年历史和Arm关联不大(除了像Windows CE这种嵌入式系统),毕竟桌面与服务器平台那时更需求高性能,而对功耗不像现在这么敏感。

微软与Arm比较众所周知的融合发生在2011年的CES展上,算起来刚好走过了10年。微软在展会上首次展示了Windows RT操作系统(实则为NT内核对Arm的支持)——这是个彻头彻尾基于32位Arm架构的PC操作系统,代号Windows on Arm(WoA)。次年10月,Windows RT与Windows 8一同发布。从这个时候开始,微软似乎就一直在动“脚踩两只船”的歪脑筋。

输入图片说明

Windows RT的“RT”两个字母部分是指runtime。微软的理想是在搭建的Windows RunTime运行时之上,同时实现对x86和Arm的支持(上图中的Metro style Apps)。Windows 8及当时的Windows Phone 8也有这么个runtime;这是微软最早期望实现不同平台生态统一化的设想。不过最早的Windows RT作为操作系统,仅支持Arm应用。而且微软仿照iOS和Android生态,令Windows RT用户仅可从应用商店下载app,以实现对应用生态的全面掌控。

微软还专门推出了搭载Windows RT系统的Surface设备,延续了两代。当年的Surface初代采用基于Arm架构的英伟达Tegra 3处理器,算是真正意义上Arm入驻PC生态的开端。不过微软对Arm生态的三心二意,以及应用商店几乎没有像样的应用,传统的x86应用又完全不支持,让Windows RT很快宣告了终结。微软还因此遭受了9亿美元的亏损。(Windows RT的终结,另一方面与当时Intel开始和微软大力推9英寸以下Windows山寨设备有关)

2012年的Tegra 3属于英伟达在移动处理器领域的早期作品,这颗SoC以Cortex A9 4+1的设计,在当时也算个异类了。彼时的Arm处理器应用到Windows PC设备算是新鲜事,只不过那个时期的Arm架构处理器在性能上,与x86仍不在一个维度。

输入图片说明

Windows RT虽然终结,但其中的runtime为如今Windows 10 on Arm奠定了重要的基础,这是后话了。事实上在此期间,微软还有过一些同类尝试,比如说2017年发布的Windows 10S。Windows 10S虽然并不定位在基于Arm,但严格限定了仅可从微软商店下载app。按照微软的说法,这个系统是为教育市场开发的,主要用于狙击Chrome OS上网本。但次年10S就被放弃。

这些尝试无一不表明,微软对iOS、Android一类生态的眼馋从未停止过。好好的,微软究竟为何要从深耕多年的x86生态“红杏出墙”,大肆向Arm表达“爱意”?我想其中至少有几个原因:

其一,Windows原有生态相对混乱。包括系统安全性差,冷不防就被人植入木马;且Windows应用于入门级硬件的体验很差,一水的Atom上网本实在不怎么样,这与Windows臃肿的生态是分不开的。微软因此期望牢牢掌控应用生态,这是Windows RT、Windows 10S出现的原因。

其二,转向Arm理论上可以让OEM厂商获得更高利润空间,戴尔、联想这些企业会有更强的意愿做推广。而且新生态下,廉价设备不需要绑一大堆垃圾软件出售,用户体验可获提升。

其三,在疫情出现以前,PC行业已长期停滞不前,PC出货量连年下降;行业需要技术上的强心针来推一把。

输入图片说明

PC出货量下滑又是个庞大的话题了,与本文相关的原因至少包括PC平台本身缺乏创新,Intel/AMD此前十多年的竞争实在是有些不思进取。智能手机、平板的出现也事实上拉低了很多人对PC的依赖,像iPad Pro这样的设备变得既能轻度办公,续航、流畅度、性价比各方面都优于PC。

可能还有一个重要原因,在微软前CEO鲍尔默卸任后,新任CEO纳德拉很快就调整了微软的策略,微软的每个产品线独立发展。所以2014年Office就全面支持iOS,随后微软就成了苹果最佳开发者,M1芯片MacBook发布会上,苹果称微软是“我们的朋友”……微软作为生产力工具界的扛把子,纳德拉的策略也实实在在影响到了PC的销量。

输入图片说明

上面这张图是国外Wikibon去年上半年预测的PC出货量变化。当然这个预测实则并未考虑到疫情对PC行业的刺激作用(以及缺芯的影响)。但在大方向上,Arm能够极大推升PC出货量的上扬是共识。

这就相关第四点了,即Arm与生俱来的低功耗属性,令其格外适用于笔记本这样的移动PC设备。基于Arm芯片的笔记本设备,续航是真正的一整天,与x86笔记本续航不可同日而语。加上微软系统层面的努力,以及PC设备形态可能发生变化(如折叠屏笔记本),PC体验能够再上一个台阶。Arm芯片的发展,尤其性能上的跨越式进步、生态的逐步完善,在此又是一个重要话题。

走了10多年,才开始走近PC主流视野

事实上,Arm阵营这边在这10多年间也从未放弃过登陆PC平台。除了前文提到的Arm与微软积极合作,还包括高通这样的芯片设计商期望实现Android系统的PC化努力(罗永浩的Smartisan TNT就得到了高通的大力支持)。只不过起码这10年间,Arm针对PC平台的攻势,都从未真正成功过。

这也是多方面原因导致的。第一自然就是x86生态根深蒂固,难以在短期内撼动;第二,Arm在苹果M1(和骁龙8cx)之前,也的确没有真正拿得出手、能在性能上与x86相较的PC处理器;第三,微软在两个生态间摇摆不定,想要拥抱Arm的同时,又舍不得昔日x86,这也成为Arm真正搭上PC这艘船的重要阻碍。

输入图片说明
今年MWC上海展会上,高通展示的骁龙8cx笔记本,不仅是微软自己的Surface Pro X,还包括三星、联想等OEM厂商的多款设备

即便是现在,其中第三个原因都仍然存在。不过随着微软再再再次与Arm合作,新版Windows 10 on Arm的成熟度,以及如今的Arm芯片,已经和当年大不一样了。前两个问题正被逐渐解决。微软这边,当年的Windows RT就积累了不少经验。

Surface Pro X设备就是Windows 10 on Arm最佳实践。这台设备采用高通8cx处理器,单系统本身及微软官方应用(如Office、Edge)使用体验都很好,续航表现远超x86版本的Surface,且设备不带风扇,还更轻薄。只不过由于生态问题,Surface Pro X运行x86应用时,x86->Arm转译成本高,效率非常悲惨。

输入图片说明
微软SQ1,即骁龙8cx

Windows 10 on Arm的大方向思路未变,即在Windows Runtime之上,要同时跑x86和Arm应用。在所有Arm、x86平台的Windows设备上,提供通用API。这是很理想的一种开发设定,微软称其为UWP(Universal Windows Platform),不需要管下层处理器架构。而UWP应用又会全数上架至官方应用商店。不过即使到目前为止,微软UWP的开发响应者都仍然不多。

所以针对传统x86应用,微软也开发了x86->Arm的模拟器,让以前的很多x86软件也能跑在Arm版Windows 10之上。要说微软的动作还真是相当缓慢,不谈32位应用的WOW64模拟器效率很低——Adobe全家桶这样的软件跑起来几乎就是灾难;而且64位应用模拟器迟迟未进入正式版,现在还在Windows预览版通道中(据说效果不错)。

不过Windows 10 on Arm早就比当年的Windows RT有了高得多的可用性。而且至少这次,生态构建效率稍高了一些,比如Adobe去年12月面向Windows平台发布了Arm版的Lightroom,Arm版Photoshop也处在beta状态了——总算开发者响应比以往更积极。更不用提,Arm版macOS一推出,主要开发者几乎是群起响应。

Arm这边,面向Windows笔记本的高通骁龙8cx如今走到了第二代,也是与微软合作的第二代产品。其低功耗表现实则无需赘言,Surface Pro X的超长续航即是佐证。关键应在于,这颗芯片在性能上和x86阵营的竞品比起来如何。如我们此前在M1芯片分析文章中谈到的那样,骁龙8cx的实际性能顶多是差强人意。

输入图片说明
来源:NotebookCheck

不过毕竟骁龙8cx功耗水平才7W——这个功耗顶多也就是手机芯片的加强。以3.15GHz(Cortex-A76)的频率,达成与Intel LakeField(酷睿i5-L16G7)相似的单核性能成绩也在情理之中。值得一提的是,虽说Geekbench算不上什么靠谱的跑分工具,但看NotebookCheck的这些得分,Arm阵营这两年的整体水平实则都不再是10年前的孱弱样子了。

基于Arm指令集的苹果M1芯片的带来,则全面证实要用Arm来实现高性能,应用于PC是完全可行的,与此同时还能达成碾压x86阵营的低功耗水平。

PC之外的“高性能”扩展

总结一下Arm之所以过去10年之后才真正有能力在PC之上逐渐站稳,一方面在于微软和苹果作为操作系统供应商态度的转变;另一方面也是Arm在经过这么多年的发展后,在低功耗的基础上,还有与x86阵营在性能方面一战的能力——Arm、苹果、高通在其发展中都做出了不可磨灭的贡献。

事实上,微软如今对待Arm和x86两者的态度依然是暧昧的,Windows Runtime运行时的存在已说明一二。这始终是横亘在Arm面前的一座大山。不过微软正在规划新的Windows 10X系统,预计今年会随同部分便携式硬件推向市场。

Windows 10X是个试图抛弃历史遗留问题,加强用户体验和安全性的系统。系统不再原生支持传统的win32应用,而是将这些传统应用默认放到container中运行。当然它也支持Windows Runtime API。且似乎现有规划中的Windows 10X设备都基于Arm平台,这对Intel实在不是什么好消息。

当然以微软态度摇摆的传统,Windows 10X仍有可能是下一个Windows RT或者Windows 10S。但从中,我们还是能看到微软起码在试探重整Windows生态的可行方案,Arm则会是这个方案的基石。

与此同时,苹果以极其潇洒的姿态抛弃x86生态,开发生态全面转向自家的Arm芯片,实则也在无形中帮助微软加速了转舵过程。

输入图片说明

最后可以谈一谈PC之外,Arm如今的扩张。IoT和更多低功耗芯片市场就不谈了,毕竟这一直都是Arm主场,比如说小至SSD固态硬盘主控芯片的Cortex-R系列实时核心,大到虽被唱衰但发展依然不错的Cortex-M系列面向IoT设备的低功耗芯片。

Arm对高性能计算市场的冲击也不是第一次了,只是此前尝试都不能算成功。和Arm在PC市场的发展一样,这两年Arm芯片在HPC、超算、数据中心市场的发展又构成了新局面。这其中有一些典型事迹:

比如说去年富士通发布名为富岳的超算,成为新的全球超算第一,其中的A64FX芯片就基于Arm v8.2A架构,这颗芯片的市场反响就相当好,规划中今年出货给亚马逊、谷歌、微软这些云供应商。再比如前年亚马逊宣布其自研Graviton2处理器应用于AWS EC2,就是采用Arm Neoverse N1架构。

输入图片说明

去年9月,Arm又为Neoverse家族(面向基础设施)新增了V系列,比此前的N和E系列都更偏重性能,就像数据中心界的Cortex-X1,通过进一步打破PPA限制,在单核性能上对标x86高性能核心。

与此同时,如此前在《Arm在数据中心的价值:黄氏定律背后,英伟达打的什么算盘?》一文中所述。英伟达在数据中心的强势,预计未来会令主控CPU愈加边缘化。而英伟达对Arm的收购,则将Arm推向了进一步的大一统。在端到端部署Arm之际,也就是Intel退场的时候了。这应该也是吴雄昂要在中国IC领袖峰会上谈“搭载新时代大计算平台”的一部分。

不过Arm的这种发展策略因大环境与英伟达对其收购,亦存在不少变数。我们此前采访的不少企业就预想到了因收购可能产生的商业风险,不止一家企业都强调采用Arm与RISC-V并行的策略,且提及RISC-V在多个方向上的发展愈发成熟;一些重要的市场玩家都在筹备后手。但有挑战存在的市场,才有发展。即便是不思进取的x86平台,这两年都焕发了新活力。

更多有关IC设计的精彩内容,欢迎参与即将在3月18日于上海召开的2021中国IC领袖峰会,与专家面对面。点击下方阅读原文链接,报名参与此次盛会。

阅读原文
文章已于2021/03/16修改

Arm在数据中心的价值:黄氏定律背后,英伟达打的什么算盘?

https://mp.weixin.qq.com/s?__biz=MjM5MTIwMjY1Mg==&mid=2649920064&idx=3&sn=1d79be76f1f37612bfabe1236b220bfc

电子工程专辑 2020-12-21

在Aspencore全球分析师共同发布的《2021年全球半导体行业10大技术趋势》一文中,有一项提到了,HPC数据中心专用加速的趋势递进。其中特别提到英伟达的DPU,这种类型的硬件,几乎可以代表数据中心的某一个发展方向。

这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题…..(点击左下角阅读原文,查看详情

Arm在数据中心的价值:黄氏定律背后,英伟达打的什么算盘?

https://www.eet-china.com/news/202012211126.html?eetc1221

时间:2020-12-21 作者:黄烨锋

英伟达DPU这种类型的硬件,几乎可以代表数据中心的某一个发展方向。这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题……

在Aspencore全球分析师共同发布的《2021年全球半导体行业10大技术趋势》一文中,有一项提到了,HPC数据中心专用加速的趋势递进。其中特别提到英伟达的DPU,这种类型的硬件,几乎可以代表数据中心的某一个发展方向。

这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题。

输入图片说明

“Arm已经取得了巨大成功,但他们获得的成功大部分集中在移动端,更多的机会在等待他们探索。Arm应当发挥显著作用的地方,还包括数据中心与PC。但这个市场的涉足其实并不简单,数据中心、云和PC领域是另一回事。”Jay Puri提到,“从技术上来看,Arm在这一领域是完全没问题的。很多探索中的例子都表明,技术不是问题。”

“在市场方面,数据中心未来的重要工作是围绕人工智能、加速计算的。英伟达在这个平台很成熟,我们有可用的完整堆栈,有所有必要的合作伙伴,生态系统庞大,有超过200万开发者;很多初创企业、行业研究都在进行中。”“一旦Arm成为英伟达的一部分,我们将能够促进Arm在数据中心取得成功。”

“这样一来,市场就会有x86之外可行的替代方案,不仅限于移动领域,数据中心、PC等领域都如此。竞争能够促进进步、推动创新。”这番话实则已经非常明晰地交代了,Arm对于英伟达的主要价值在哪里:数据中心(和可能的PC)。本文尝试扩展HPC数据中心的专用加速趋势这一话题,亦可从中看看英伟达的野心有多大。

Arm对数据中心的作用有多大

2020年,HPC领域在相关芯片架构层面发生过一件大事:富士通(Fujitsu)发布名为富岳(Fugaku)的超算,其中的芯片为A64FX。这颗芯片在微架构层面其实是很有意思的。首先它整体上采用monolithic的设计,而不是现在流行的chiplet(比如AMD Epyc)。它既像CPU,又有点儿像GPU,而且片上还集成了HBM2存储——这样一来,A64FX的板卡就比较奇特:板卡上没有RAM,因为已经集成在了片上(chip level)。

输入图片说明

我们来简单看看这颗芯片微架构的独特之处。从上面这张图来看,核心周围的4个die就是HBM2存储,连接到四个HBM2 Interface之上,算是与核心靠得很近了,所以主内存到L2 cache的带宽就会比一般的HPC系统要明显更大(1024GB/s),单芯片的容量也达到了32GiB。

核心部分,A64FX整体上是基于Arm v8.2A架构的,扩展了SVE(Scalable Vector Extensions)——这种扩展是专门针对HPC科学负载矢量化准备的,属于NEON扩展指令集的补充。A64FX具体采用的是512bit SVE。这一点其实并没有什么。

这颗芯片真正有意思的地方是,它并没有什么加速器,die上也没有集成专门的GPU之类的处理器。其行为方式很像GPU,但却是颗实实在在的通用CPU。A64FX内部总共分成4组,分别是4个CMG(core memory group),每组13个核心(所以总共是52个核心,其中48个是活跃核心,其余4个为OS以及冗余策略预留)。CMG内部每个核心依次连接,而不同CMG之间采用类似于Intel Skylake的那种Ring Bus环形总线连接。作为一颗通用处理器,A64FX就是可以跑常规操作系统的,虽然它内部看起来还挺像英伟达的GPU。

输入图片说明

这颗芯片在设计上就是为HPC负载准备的,尤其是科学模拟、数据分析等。现在比较主流的方案,是用GPU来加速这些活儿,主要是因为GPU能够灌入大量数据,并做高度并行计算,然后同时输出大量结果。事实上,HPC的存储带宽需求一直很大,包括气象模拟、各种流体力学、量子力学等研究,以及计算机视觉、机器学习一类数据分析工作,都要求大量数据的迁移,在大量核心之间通讯、共享。

A64FX从设计思路上,也能干这样的工作:持续做SIMD计算,而且还有不小的片上存储资源和相当大的传输带宽。另外富士通开发了一种名为“Tofu”的互联方案,据说在能效、带宽和延迟方面表现都非常好,宣传上提到是显著优于AMD和Intel的方案的(据说是比Xeon/Epic,有10倍的能效优势)。此外,SVE矢量扩展,及其对FP16、FP32等数据类型计算的原生支持,都令其相当适用于HPC负载。

从已公开的数据来看,A64FX单芯片在性能上也远优于Intel Xeon Platnium 8168、NEC SX-Aurora这类方案,以及部分测试优于Nvidia上代的Tesla V100。其实相较传统通用CPU的性能优势还是意料之中的。因为A64FX从设计上来看,是明显更偏向专门针对HPC做了"domain-specific"的优化的,与此同时还保有了CPU的通用性。

输入图片说明

用简单的话来概括A64FX的思路,它很像把HPC方案中CPU+GPU+RAM的传统组合凝聚到一起,另外也有比较全面的大规模扩展方案。这颗芯片预计2021年会出货给亚马逊、谷歌、微软这些云供应商。

当然不能就性能、效率,以及其设计就简单认定,A64FX就一定能够在HPC领域掀起多大的浪,生态构建也属于重要的工作。但很显然,Arm在HPC、数据中心之上发光发热,至少就技术、性能层面来看,是没有任何问题的;而且Arm具备了相当的弹性,是x86平台可能无法给予的;另一方面,Arm在端侧正在对x86发起新一轮猛攻,这可能也将有助于Arm在数据中心的生态构建。

GPU在数据中心的发展令人咂舌

富岳以及A64FX的发展思路未必就代表了数据中心的未来,电子科技及半导体领域从来不是效率、性能说了算的,而且我个人也觉得A64FX在微架构层面虽然有创新,但它作为一种通用芯片,在专用计算的"domain-specific"这一点上仍然可轻易被超过;比如几个月前,Graphcore二代IPU的发布会就特别提到了,算力相较A64FX的超越。

老祖宗构建起来的架构,其实很难在短期内被轻松推翻。只不过传统CPU+GPU+RAM的发展方向,本身就在不停发生变化。就好像多年前应该不会有太多人想到,GPU、FPGA加速卡这类硬件可以在数据中心活得这么滋润。

英伟达最伟大的发明,大概就是CUDA和GPGPU了。这将GPU扩展到了更多市场。2016年黄仁勋在GeForce 1080 Ti发布会上提到最多的词还是rendering和graphics;但在2020年GeForce 30系列GPU的发布会上,Graphics这个词被提及的次数却远远少于RT core、AI等。这表明英伟达的GPU市场,早就扩展到了游戏、图形计算之外。

即便AMD刚刚发布的Radeon GPU在性能上将近做到与Ampere架构GeForce的齐头并进,AMD Radeon的市场与英伟达依然是不可同日而语的。

我在去年GTC China的报道中提到,2015-2019年英伟达的营收增长速度之快,令这家公司不像是个已经步入成熟期的企业。这主要是源于GPU在数据中心业务上的风光正盛。而且这个趋势在2020年竟然还在持续,甚至可以用“飙车”来形容。

输入图片说明

英伟达数据中心业务云霄飞车般的营收增长

英伟达最新一季(FY2021Q3)的财报显示,公司季度营收47.3亿美元,上涨57%。值得注意的是,其中数据中心业务的营收同比增长达到了162%——而且这还是在持续多年增长之后的持续增长。在谷歌云、微软Azure之后,AWS、Oracle Cloud、阿里云都相继宣布了Nvidia A100可用;选择英伟达平台针对AI相关服务做AI inference越来越多;当然英伟达数据中心业务的强势,也离不开Mellanox在InfiniBand等方面的增长。

相较之下,英伟达游戏业务37%的增速虽然也很亮眼,却在增长性上相形见绌了。专业视觉以及汽车业务的营收下滑,也就显得没那么重要了。去年的分析文章中,我曾大致估算数据中心业务占到英伟达整体营收的1/4,仅次于营收占比过半的游戏业务。今年的情况预计又会发生较大变化。以这种成长速度,数据中心很快就会成为可与其游戏业务相提并论、并驾齐驱的业务了。

这其实很大程度上代表了数据中心市场,GPU这类型的硬件已经占据了多重要的地位。可见市场对于性能和效率的渴求还是疯狂的,何况数据中心市场客观上还受到了新冠疫情的推动。

那么这和Arm又有什么关系呢?

DPU是英伟达野心的承载

英伟达也在GTC China期间宣布,多家中国顶级云服务提供商及系统制造商采用其A100 Tensor Core GPU。阿里云、百度智能云、滴滴云、腾讯云等云服务提供商都推出了搭载A100的云服务及GPU实例。A100是英伟达这一代Ampere架构,定位在数据中心平台的GPU产品,被英伟达称作“最强性能的端到端AI以及HPC数据中心平台”。

Ampere架构是英伟达在2020年年中正式官宣的。消费端的GeForce 30系列,以及上述A100都可以说是Ampere架构产品。实际上英伟达如今在热推的另一类产品,文首提到的DPU也有Ampere架构GPU的身影:BlueField-2X DPU板卡上就加入了一枚Ampere架构的GPU,用于AI加速。

这里的DPU是相当值得一谈的。抛开Ampere架构不谈,在前两个月的GTC大会上,英伟达正式宣布了BlueField-2/2X DPU(data processing units)的推出。DPU这个概念最早应该是Mellanox提出的。英伟达在新闻稿中提到,DPU采用data-center-infrastructure-on-a-chip架构,“突破性的网络、存储和安全性能”。直译过来,就是芯片上的数据中心基础设施。

本月GTC China期间,好几篇来自英伟达的新闻稿都提到了DPU或相关信息:包括公有云厂商Ucloud基于英伟达的BlueField DPU研发,“并于上半年推出的裸金属物理云1.0产品,通过DPU集成的多核Arm CPU快速将物理云基础架构软件从x86迁移到DPU中”。而且“Ucloud进一步于下半年研发并推出裸金属物理云2.0产品”,其中也包含了BlueField DPU本身的更多特性。

在Mellanox被英伟达收购之前,DPU实际上是Mellanox针对下一代SmartNIC的一个设想,将其networking的技术,和Arm做结合,分担主系统的更多工作,包括软件定义网络、软件定义存储、专用加速引擎等。2019年BlueField产品很低调地发布了。英伟达后续对BlueField-2,也就是DPU二代产品的定位有了进一步的延展。

输入图片说明

所以今年发布的其实是二代DPU。BlueField 2芯片本身包含8个Arm Cortex-A72核心,以及两个VLIW加速引擎;然后再加上Mellanox最拿手的针对网络连接的ConnectX-6 DX NIC(网络适配器)。

简单来说,DPU是数据中心的另一个domain-specific加速器,从主CPU分担networking、存储和安全负载。 这其实是英伟达在GPU产品于数据中心市场大获成功后的又一步扩张举措。与此同时进一步消除x86 CPU在数据中心的重要性。

输入图片说明

用Mellanox的话来说,DPU是将计算功能,与数据靠得更近了(data-centric architecture),取代以前还要把数据专门移到计算所在位置的那种模式(compute-centric architecture)。

更具体地说,BlueField-2相对而言是达成了这个目标的;而BlueField-2X则是在板卡上给DPU再加上了Ampere架构的GPU(和EGX A100好像有点类似)——英伟达称其为AI-powered DPU。此处多加的GPU价值主要是实时的安全分析,包括识别异常流量,加密流量分析,识别恶意行为,以及动态安全组合、自动响应等。

输入图片说明

至此,其实英伟达已经有能力将整个系统,包括CPU、NIC、加速器、安全都放到一个SoC上,再搭配自家GPU,基本上是可以无视x86的存在的。从英伟达公布的DPU产品路线图来看,后续还会有BlueField-3和4的问世。

BlueField-3其实是加强版的BlueField-2。而BlueField-4则计划在单芯片性能上就打败现有DPU+GPU的组合。英伟达计划BlueField-4应可提供400 TOPS的AI算力。如此一来,从GPU在数据中心做AI、数据分析及HPC,到如今DPU接管网络、存储、安全等关键任务,以及将来DPU可能把这些加速的活儿都干了。

输入图片说明

DSP应用于网络安全的一个例子:当两名开发者使用Omnivers高吞吐流app进行实时的工作时,一台设备是Vmware Cloud Foundation + BlueField-2 DPU,另一台则是传统架构,在遭遇DdoS攻击时,两种架构的CPU占用率对比。右边这台服务器会因为数据包泛红,致工作被打断;而左侧服务器,DPU自己就能够识别并丢弃这些恶意数据包

与此同时,英伟达也推出了配套的DOCA软件栈,就类似于GPU世界的CUDA那样。英伟达这两年一直在宣称自己是家软件公司。那么当为开发者提供SDK,这片市场的空前增长,就像现如今的GPU那样,是为英伟达真正统领数据中心市场的野心所在。

而且英伟达现有的软件开发能力,还能持续为DOCA添砖加瓦,包括SDK扩展支持、各种库的增加:眼见CUDA如此的兴盛即知DPU将来的潜力了。与此相较,媒体渲染的什么黄氏定律(Huang’s Law)都不过是为此服务的营销宣传罢了。

输入图片说明

Arm将在此间扮演什么样的角色?回想文首Jay Puri在GTC China首日的圆桌论坛上的发言,是否变得明朗许多?在DPU的版图上,Mellanox早已是英伟达麾下一员,就剩Arm了。想到此处,感觉英特尔在现如今的时代格局下,还真是有点儿“谁都在针对我”的处境。

这或许也能一定程度解释,为何AMD要收购赛灵思。另外,Jay Puri发言中还提到了,Arm理应在PC领域也发光发热,这是否是在暗示,英伟达或许还有在消费市场一搏的打算?

责编:Luffy Liu


输入图片说明

黄烨锋

欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。

RV4Kids/Shiliu PI, Shiliu Silicon, Shiliu Si, 石榴核.md

收录!

芯片的追赶还将是任重道远之路!

袁德俊 任务状态待办的 修改为已完成

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(1)
5631341 yuandj 1624973227
1
https://gitee.com/RV4Kids/RVWeekly.git
git@gitee.com:RV4Kids/RVWeekly.git
RV4Kids
RVWeekly
RVWeekly

搜索帮助

344bd9b3 5694891 D2dac590 5694891