正在阅读:

干掉英伟达?

扫一扫下载界面新闻APP

干掉英伟达?

英伟达已经成为了一家软件公司。

图片来源:视觉中国

文|虎嗅 宇多田

一个记者的提问,让黄仁勋在2019年12月一场媒体沟通会上,二话不说拿起话筒朝头顶狠狠敲了好几下。对了,巨大的回音可以证明他是用力砸的。

这个略显可爱的举动和他接下来的话,让包括我在内的全部记者都笑出声来:

“完了,听到这个问题,我在台上滴水未进,嗓子冒烟的两个小时算是白费了。”

这个记者的问题有些含糊,但也问出了很多人心中的疑惑

英伟达这次为何没发芯片?

这样理解其实也没错。2019年末,当“英特尔们”每隔几天就通过收购、发布新产品等方式,向外界360度无死角“吹风”自己的AI芯片战略时,所有人都在等着英伟达如何在自己的GTC技术大会上,“回应”向自己挑衅的各路人马。

然而,这场会上,除了一块名为Orin的自动驾驶专用芯片,这家全球最具价值的人工智能芯片巨头发布的产品全都是“软件”。而且Orin,还要等到2022年才会投产。

这场会议,完美契合了他在2019年Q3季度财报业绩电话会议上的一个重要观点——

“英伟达已经成为了一家软件公司。”

这家“软件公司”,在2020年2月中旬公布了2020财年第四季财报后,市值一度摸高至接近2000亿美元,创了历史新高。尽管现在已回落至1600多亿美元,但过去两年,英伟达(NASDAQ:NVDA)毫无疑问是华尔街上传奇般的“金股”。随着市场对数据中心越来越强劲的需求,英伟达跟新旧芯片玩家之间的战争,注定将越发血腥。

它崛起背后是什么样的技术动能、巨头争夺?它的未来,又暗示着什么样的巨大市场?

无可比拟的软件优势

由于英伟达越来越多地“露骨”地开始利用其软件实力来销售那些看上去只是硬件的产品,因此我们有理由相信,这家芯片公司已经开始奉行“软件第一”战略。

这很容易让人想起苹果公司的发展路径,以及2007年那个已经被传烂了的乔布斯“软件梗”——

在第5届全数字化大会(All Things Digital conference)上,乔布斯曾与比尔·盖茨谈话时指出,iPhone其实是包在一个漂亮外壳下的软件,苹果是一家软件公司。

股票分析网站Seeking Alpha 证券投资分析师DoctoRx证实过另一个相似故事——

也是在2007年,乔布斯在一场关于iPhone的路演上,被一位投资经理提出质疑:

“虽然你把触摸屏做的很酷炫,但如何避免陷入价格竞争呢?难道不是每个竞争对手都能做触摸屏?”

乔布斯回复:“我们是一家软件公司。”

让我们再回到英伟达身上。如果按照这样一个思路,那么就可以很好解释:为何在近三年来AI芯片市场烽火弥漫,英伟达每年在数十份AI芯片公司的PPT里被“吊打”的“压倒性劣势”中,股价还能稳步走高了。

就像大家很容易遗忘在iPhone发布前,苹果已经在电脑上做了十几年操作系统一样;AI芯片公司们也忘记英伟达是一家显卡供应商的同时,手里还握着另一个杀器:Cuda。

在上世纪90年几乎左右了芯片产业发展方向的英特尔传奇总裁安迪·格鲁夫,有一个逼自己一定要遵守的产业规则:“在这个行业里,要想预见十年后会发生什么,就要回顾过去十年中发生的事情。”

对于英伟达如今在人工智能训练芯片市场确立的垄断性地位,某种程度上也要归功于十年前英伟达首席科学家戴维·柯克一系列在当时看来风险极高的疯狂决策。

一方面,他竭尽全力劝服CEO黄仁勋把GPU通用化——让一块只能渲染图形的独立显卡,变成一个通用计算图形处理器(GPGPU);另一方面强烈要求英伟达现有与即将推出的所有GPU都必须支持Cuda程序。

据自动驾驶公司文远之行技术总监钟华回忆,十几年前还在卡内基梅隆念书时,那个时候给GPU编程需要用机器码深入到显卡内核才能完成任务,非常困难。

“我们用汇编语言写代码,写起来真的非常烧脑。英伟达推出了Cuda以后,相当于把复杂的显卡编程包装成了一个简单的接口,造福了广大程序员。现在主流的深度学习框架基本都是基于Cuda进行GPU并行加速。”

2007年,英伟达正式推出GPU统一计算架构平台Cuda。这一架构的里程碑意义在于,让GPU不再单独存在于个人用户的显卡中,仅为自己的“一亩三分地”工作;而是让GPU通用化,把“个人计算机”变成可以并行运算的“超级计算机”。

虽然初期推广并不顺利,但2009年,由于基于Cuda的高性能运算研究成果陆续在众多知名期刊发表并获得认可,英伟达终于迎来了业务转机,并奠定了之后10年的AI芯片市场绝对霸主地位,为业界提供了强大的并行运算能力。

“Cuda是当时已经濒临破产的英伟达再度崛起不可忽视的推动力。” 高精地图公司极奥科技CTO通过历史上一系列相似产品的发展路径总结出一个经验——给硬件找到简单易用的软件接口形态,才能在市场中迅速被接受并推广至各个细分领域。

2019年,“Cuda之父”柯克博士被美国电气和电子工程师协会(IEEE)授予了协会最高奖项Seymour Cray 计算机工程奖,以表彰他对高性能计算机系统创新的巨大贡献。

如今我们可以看到,英伟达已经在Cuda基础上开发和积累了针对不同领域的大量算法与软件,让数不清的开发者不用写一行代码,就能先让一套深度学习基础模型跑起来,站在巨人的肩膀上升级与优化软件堆栈。

Cuda构建的强大生态,支持所有主流深度学习框架,支持主流云上机器学习训练平台

因此,对于许多AI芯片创业公司,如果可以支持的深度学习框架都不全,能够对接的编程语言也有限,也就无法对许多那些已习惯了从基于Cuda的算法库上传和下载算法、通过Cuda架构使用英伟达跨代产品的开发者,产生足够的吸引力。

这相当于,当你面对眼前的一堆沙子思考如何设计一堵墙时,对手的护城墙不仅已高达数十丈,还广招兼职砌墙工,并为他们提供云梯和入城资格。

“国内很多自动驾驶公司,用的是英伟达PX2片上系统,这个架构最大的好处是方便。

“譬如直接就能把车道线识别,障碍物识别都搭建起来,因为相关算法都可以在网上下载完并进行快速部署,而且还能做配套的硬件加速。而这些算法,也是之前开发者上传的训练模型。”

一位不具姓名的自动驾驶技术人士做如上表示。他称,国内不少人工智能公司就是搭了英伟达的便车发展起来的:“所以你看,英伟达一下子占领了两块儿,一块儿是训练端,一块儿应用端。短期内,不可能有人撼动他们的地位。”

下一个十年的支撑点

2020年2月,美国财经网站MarketWatch用“华尔街为之震惊”,来形容英伟达2020财年Q4财报上数据中心板块的强势表现——

英伟达的芯片销售额达到创纪录的9.68亿美元。

这的确是一个令人瞠目结舌的数字。要知道,2017财年英伟达刚披露这一业务数据时,收入为2.8亿美元;此后,英伟达的服务器芯片历史销售数据历经跌宕起伏,但最好成绩也从未超过8亿美元。

因此,这个数字可以直接向我们证明:数据中心,特别是超大型数据中心对人工智能芯片的需求不仅没有放缓,反而在加速扩张。

从2017年Q4到2020年Q4英伟达各个业务板块的收入变化。图片来自商业定量分析机构Business Quant

实际上,GTC大会有一点被很多人忽视了。老黄发布产品的顺序,与产品对应细分市场在英伟达财报中占据的份额,一直呈现正相关关系。

先是游戏,再是云计算应用、最后是自动驾驶(汽车)。

根据英伟达最新的2020财年Q4财报数据,”游戏“仍然是多年来英伟达的营收支柱板块,收入高达14.9亿美元,约占总营收的47%;

而增长强劲的数据中心板块,如今已经跃升为英伟达最具有市场拓展潜力的业务分支。收入同比增长43%,逼近10亿美元大关;

通常放在财报电话会议上最后说的,是包含了车载信息娱乐与自动驾驶解决方案的汽车业务相关收入。这一部分看似表现平平,只有1.63亿美元,同比增长1%,却是一个不可忽视的长线市场。

这三个板块,更像是对应了英伟达的“过去”、“现在”和“未来”。

虽然“游戏”是图像处理与满足神经网络计算的应用与创新源头,也是英伟达必须守住的老本行。

但趋于饱和、不断被移动端挤压的PC游戏市场,远没有新兴市场带给英伟达的诱惑力更大。

根据游戏市场研究机构Peddie Research的最新数据,过去近5年里,英伟达在PC独立显卡市场,一直占据着70%以上的市场份额,特别是其Geforce系列显卡,极受游戏与挖矿产业的欢迎。

不过,整个PC GPU市场,英特尔才是老大。

图片来自Peddie Research

 

再从游戏整体市场来看,英伟达的GPU产品并不占据明显优势。特别是主机与移动游戏的GPU市场,英伟达常年分别被AMD与ARM压一头。

换句话说,PC游戏市场在某种程度上决定了英伟达游戏业务的增长速度。

对于2019及未来3年的全球游戏市场发展趋势,游戏与电竞市场分析平台NewZoo给出了一个可参考的判断——

在2019年全球游戏市值将达到1488亿美元的基础上,移动游戏占比高达46%;与之相比,单机游戏与PC游戏市场份额分别为453亿与353亿,两者加起来占比仅为23.3%。

到2022年,从PC端向移动端转移的趋势将愈加明显,PC市场游戏份额将被挤压至20%以下,而且收入的增长速度将慢于移动和主机游戏收入的增长速度。

这多少会对英伟达的游戏业务产生影响。

此外,从英伟达2020全财年的游戏收入来看,55.2亿美元的营收额已经比去年减少了近12%。

图片来自NewZoo

实际上,几乎所有华尔街分析师近年来给予英伟达股票高评级的理由,都是“对这家公司在数据中心市场的增长潜力抱有积极态度”。

云,才是人工智能发展的重心,也是英伟达的下一个野心。

对于所有神经网络算法模型来说,训练一般都要在云上进行。因此,这对计算能力、速度以及单位数据传输量有着极高的要求。

特别是由大量神经元组成的深度学习框架,是建立在“矩阵运算”的基础上。虽然“矩阵”的运算形式是简单的加法与乘法,但涉及的数据量非常庞大。

与擅长复杂逻辑运算、但核心数较少的CPU相比,GPU虽然只能进行简单运算,但它是由成千上万个小处理器核心构成的,而且这些小核心可以同时处理任务。

这就好比我想把墙角的几百块砖头挪走,比起雇佣几个大学教授,雇佣100个小学生不仅效率更高,而且更划算。

因此,如果只是进行图片分类,在GPU上计算出答案的速度可能只比在CPU的速度要快上一两秒;但当神经网络在进行训练时,GPUs在“并行计算”上的优势就会十分明显,因为训练时需要进行数百万次的反向传播迭代。

2019年年底的GTC上,英伟达与阿里、百度等中国企业的高调合作,进一步凸现了GPU在云端人工智能算法训练中扮演的重要角色—— “搜索的时代已经结束,智能推荐的时代已经到来。”

对于普通消费者来说,GPU对深度学习推荐模型的贡献其实不难理解。

打开手机淘宝,“有好货”,“每日好店”,“猜你喜欢”……都是深度学习推荐模型在根据你浏览及购买数据,挑出与你喜好相匹配的商品。而这些推荐模型,建立在十亿级商品与用户数据集之上。

此外,抖音以及快手中的推荐系统,也有着过千万的视频上传量与过亿用户的数据基础。

而英伟达的Tesla T4 、V100等处理器与配套加速软件,发挥的主要作用, 便是为基于亿级数据的推荐算法模型训练进行资源分配、量化与加速。

这些相关应用,便是数据中心市场引发的新一轮硬件部署潜在增长趋势。

如果说上一个10年中的数据中心芯片市场急剧扩张,主要取决于2B客户对机房内部基础硬件的疯狂采购;那么新一轮增长动力,则来自于数据中心需要处理的越来越复杂的推理计算工作

如今在数据中心市场,Tesla系列毫无疑问是AI加速方面的主流处理器,用阿里云某工程师的话来说就是:“你当然也可以用CPU去训练,但是解1路视频就要耗掉一块CPU,但却只会消耗GPU的一部分带宽。”

云产业调研机构Liftr Cloud Insights在2019年做出一个估算:截至2019年5月,全球排名前四的公有云服务商,部署有英伟达专用AI加速器的IaaS计算实例类型,就高达97.4%。

很明显,尽管英特尔与AMD等竞争对手在这方面的动作不容小觑,但在未来3~5年内,但他们的GPU解决方案不太可能大幅削减英伟达在数据中心AI加速器领域的市场。

来自传统巨头的撕咬

历史证明,芯片企业是永远不可能睡上安稳觉的。

20世纪80年代,在日本存储芯片厂商强大的低价攻势下,英特尔曾徘徊在垂死边缘,最后孤注一掷,决然放弃存储芯片市场;

2006年,AMD收购了英伟达在显示芯片市场的最大敌人ATI。但这笔收购费太贵,外加在与英特尔的长期价格战中耗费大量资金,AMD此后10年,再无争夺行业老大的任何机会与条件;

而说到英伟达,2009年则是决定它命运的一年。

在英伟达的Cuda还没有被业内广泛采纳的不到1年时间里,由于推出的高端笔记本独立显卡出现了一系列质量问题,英特尔与AMD又趁机“火上浇油”,英伟达股价由最高时的30多美元,跌至6美元左右。

“每次有困难的季度出现,就会有人想顺势搞砸一切。但为了在未来某个节点做出伟大的成就,你就必须在今天承担风险。”

黄仁勋说出这句话的时候,正是10年前股票跌至最低点,整个公司处于十字路口的关键时刻。

但他随后便做出了选择——

裁员以削减成本,延长回购股票计划,在GPU处理器和配套软件上面砸更多的钱,集中精力“笼络”流媒体公司、游戏玩家,以及那时还为数不多,但要求却最为苛刻的科学家与AI工程师。

如此这般若干年后,英伟达迎来当下的黄金年代。

但哪有一劳永逸可言。一路搏斗、一旦选错方向就永无翻身之日的芯片公司们,最不缺的就是危机感,以及总想趁机踩一脚的竞争对手。

因此,在利润丰厚,且仍然是一片蓝海的数据中心AI芯片市场,无论是敌人还是客户,你能想到的一切企业,基本都可以对英伟达构成生存威胁:

英特尔、AMD、高通、ARM、三星、英飞凌等半导体制造商们;

运营着超大数据中心,急切需要多样化AI芯片组技术的亚马逊、微软、谷歌、阿里以及IBM等云服务厂商们。 

以及如今看起来还不成气候,但却数量惊人的创业公司们。

我们需要清楚地认识到,英特尔一直占据着数据中心服务器CPU市场90%以上的市场份额,即便这个细分市场被2017年重回数据中心阵地的AMD蚕食掉4.5%。

当然,也正是因为遍布世界的数据中心塞满了至强X86处理器,英特尔2019年Q3财报上的数据中心板块才取得了有史以来最好看的业绩——95亿美金,占总营收的半壁江山。

但是,云端AI加速器市场,却可能是英特尔有史以来首次失去主导者地位的领域。这家全球最具影响力的芯片企业,不仅正处于“芯片制程工艺停滞不前”的镇痛转型期,还需要努力解决公司内部设计与制造团队之间的隔阂与分歧。

其实在10年前,已经在数据中心具备影响力的英特尔,本是有机会将英伟达“消灭”在襁褓中的。

与游戏市场很不一样,作为典型的2B行业,数据中心市场接受一款全新的处理器产品往往是相当困难的,因为客户们往往喜欢自己熟悉且习惯的东西。

这也是很长一段时间里,英伟达向2B客户拼命宣传Tesla系列芯片,却收效甚少的重要原因。那时GPU只受到实验室以及大型石油及天然气公司的追捧,因为只有他们对算力的要求最为“极端”。

直到2010年,IBM同意把英伟达的Tesla系列显卡塞进自己的服务器里。

这次看起来十分普通的联姻,对英伟达来说却有着里程碑式的意义。因为IBM,是第一家给予Tesla系列认可的主流服务公司。

但对IBM来说,之所以会率先选择与英特尔的对手们签署合作项目,是自己制造的Power服务器芯片与英特尔形成竞争关系。(也因此,在过去十年里,你会发现IBM总是会首先推出基于AMD芯片的服务器,或者是与索尼在芯片上建立合作,联合抵制英特尔在视频游戏机市场的进攻。)

当然,那个时候英伟达的GPGPU由于仅开放了几个关键接口,并不够通用,很多数据中心如果替换处理器,还需要重新写很多代码。

但故事的发展就是这么“恰到好处”:

一方面,英特尔一再推迟对标处理器的发布,给了英伟达充分的迭代时间;而另一方面,由于服务器CPU产品遭到英特尔的碾压,另一个对手AMD在2013年退出数据中心市场,直到2018年才卷土重来。

用当时Tesla业务线负责人Andy Keane话来说就是:得到主流支持,就像是为基于数年研发的Tesla芯片开了一道泄洪闸门,使英伟达的数据中心业务线彻底爆发。

因此,总是错过关键时间节点的英特尔,现在真的着急了。

“英特尔之前收购的人工智能创业公司Nervana,2014年就说要做芯片,但2019年才推出一个深度学习推理芯片,所以现在压力很大。

“在AI加速器方面,很多云技术厂商的速度都几乎跟他们同步了,更不用说英伟达。”

一位集成电路从业者告诉虎嗅,英特尔如今只能靠大量“收购”来补齐这些缺失的模块,亦如他们大部分与AI能力相关的东西都是靠买得来的。

2019年半导体界最为轰动的并购交易——英特尔耗资20亿美元收购以色列公司Habana,便是其抗击英伟达颇为关键的一步棋。

Habana迄今为止就推出了两款处理器:训练芯片Gaudi与推理芯片Goya。前者对标英伟达的tesla V100,后者对标推理芯片T4。

鉴于V100与T4都是目前数据中心采用的主流AI加速器,所以我们可以理解为,Habana就是为争夺英伟达在数据中心市场份额的“存在”。

其中,Gaudi与许多AI专有训练芯片最大的不同在于,允许数据在多个计算节点之间共享的方式更加开放——一台电脑可以通过另一个城市的另一台电脑访问内存,不会占用自己的CPU,大大提升了使用效率。

这意味着,该能力允许用户更加高效地跨网络或加速器结构来共享数据,尤其适合在大规模并行计算机集群中使用。

当然,除了靠“买”抢占市场,英特尔更为直接粗暴的竞争方式是——升级至强处理器、或者直接推出专门用于数据中心的GPU方案。

2019年4月,英特尔发布第二代至强处理器时,格外强调了“这是第一个内置了人工智能加速处理模块的CPU架构”;2020年中旬,一款基于Xe 架构的GPU 也将面世,而英特尔已经承认,这个产品是为数据中心量身定做的。

与英特尔相比,重返数据中心市场没多久的AMD,暂时不会对英伟达在这个市场的产品线构成威胁。

但请记住,AMD在本月被曝光细节的代号为“Arcturus”的服务器加速卡Radeon Instinct MI100,是一块针对数据中心和重量级计算任务而设计的GPU,旨在对标英伟达的T4。

新对手登台:好戏在后头

在英伟达GPU对数据中心不断渗透的过程中,除了老对手的夹击,数据中心经营者格局也在发生显著变化——

AI相关应用的急剧增长,引发了市场对超大型数据中心的强劲需求。

超级数据中心不同于典型的数据中心,从字面意义来看,他们的体量显然更为庞大,有成千上万台服务器以及数百万台虚拟机。因此,他们有足够的能力来处理一个小型数据中心所不能承受的“AI计算之痛”。

而云服务专业媒体CRN在2019年底给出了两组有趣的调查数字:

首先,以公共云巨头亚马逊AWS、微软Azure、阿里、谷歌、腾讯等科技巨头为首的超大规模数据中心运营商,正在迅速抢占数据中心市场的支出份额。目前,数据中心硬件和软件上每3美元的支出,就有1美元来自这类企业。

其次,自2013年以来,这类超大型数据中心的数量增加了两倍。截至2019年第三季度末,共有504个由巨头运营的超大规模数据中心,正在建设的则至少有150个。

因此,结合超级数据中心的成本支出与增长情况,一方面,服务器以及其他配套硬件还会源源不断被送进机房;

另一方面,AI处理任务的持续增长,又会倒逼服务器的配置要得到持续的升级。

根据人工智能非营利组织Open.AI公布的调查数据,深层神经网络的规模与复杂性,每3.5个月翻一番。因此,在被赋予更多更艰巨的计算任务的过程中,这些硬件的复杂程度与处理器性能也被提出了更高的要求。

举个例子,亚马逊AWS自2015年以后,便陆续在每个地区的数据中心部署了大量T4。原因就在于这些GPGPU擅长执行像“对话式AI”、“人工智能推荐”这种高性能计算工作负载。

而像商汤、旷视这样的人脸识别独角兽企业,需要在建立的超算中心里部署超万块GPU。据商汤内部工程师透露,他们每天在算法平台上进行数据训练迭代的单次成本,就高达数十万元。

因此,我们可想而知,亚马逊、微软、阿里、谷歌等Top级云服务商的云计算数据中心,为了支持自己与客户的深度学习训练任务,所需要的GPU量级到底有多大。

显然,这个变化对所有数据中心的建设参与者,包括创业公司在内,都是一个绝对不能放手的巨大利益池。

特别是云数据中心经营商,高昂的训练时间与资金成本让他们也甘愿下海一搏。

在一场不久前清华闭门交流会上,虎嗅有幸听到了阿里达摩院资深算法专家杨永霞对云上如何训练若干种卷积神经网络模型的深度解析,而她在不经意间,也流露出因硬件跟不上计算要求而产生的焦虑:

“一点几PB的数据量,用8卡Tesla V100计算就要超过20个小时,而我们其实有几百PB的数据。一块V100就几万块,真的是用不起啊。”

在这样的需求形势下,谷歌推出自称性能可达同等级GPU产品15~30倍的AI专有芯片TPU;亚马逊与阿里陆续推出旨在以极低成本交付高吞吐量的云端AI推理芯片;微软为了能够追上这股“造芯新时尚”,急忙在2019年11月宣布,将在云上释放英国AI芯片创业公司Graphcore(这家企业的“成名作”是一块被称为IPU的“智能处理单元”IPU及其配套软件Poplar,专门为人工智能应用程序所需的并行计算而设计)提供的复杂图像模型处理能力……

无论商用效果如何,以上都是云服务商不得已而为之的一个选择。

但需要注意的是,这些云服务企业自研的大多是推理芯片。

由于神经网络模型在训练阶段需要处理大量数据,同时也要完成不同的学习任务,因此GPU具备的大量平行运算单元,能够充分满足“训练”对运算的效率与通用性要求。

但进入执行阶段,也就是“推理阶段”,一个算法模型可以根据一堆量级不大的新数据得出结论。GPU当然也可以做到这些,但多少有点“大材小用”。

没错,这就是亚马逊、阿里为何研发定制推理芯片的另一个重要原因——对于大量推理工作,通用性或许不足,但专用肯定是有余了。

但有不愿透露姓名的业内人士对这些“自研芯片”存有疑虑。因为他认为,无论是自己做,还是部署其他公司的商用芯片,难度其实不相上下。

“云服务商如果真的打算在AI加速器上花钱,那么他们想要的一定是这项工具的灵活性,而非只满足于实现单一目的。”

目前来看,只有英伟达GPU等少数几家公司具备这样的优势——让一块芯片驾驭不同的工作类型,譬如GaaS(游戏图像渲染)、高性能计算加速以及模型训练与推理。

因此,在“更专业的精英”与“全能却稍微平庸的人”之间,趋利的市场暂时会倾向于后者。

此外,即便某块专有芯片比GPGPU更擅长处理某个任务,但后续却可能需要一大批人为这块芯片开发新的人工智能代码。

说到底,这仍然少不了生态之间的较量。

在微软选择与Graphcore合作后,技术分析机构Moor Insights分析师Karl Freund曾公开表示,这种芯片虽然看起来像是“名校高材生”,但灵活性仍然让人怀疑。

“没有证据表明其具备更好的可编程性,这让工程师们不足以去开发新的应用程序。即便是可编程性能做到,但在训练和推理方面都能取得好成绩吗?对于芯片创业公司来说,这很困难。”

的确,Graphcore曾强调自己的芯片“特别适合”完成那些超大人工智能模型或时间数据的训练任务。但是,他们自己创建的软件框架Poplar,目前看起来也不太可能对抗在AI开发者群体具有极高威望的谷歌深度框架Tensorflow。而后者被英伟达的GPU产品所支持。

甚至于投资分析师DoctoRx对谷歌的TPU也心存质疑。

他认为,在部署时,谷歌构建的规范并没有他们想象的那么有效,这很大程度上是因为成本所致。

“虽然我不确定谷歌在宣布对外出租TPU能力后的接下来会实施什么样的计划,但与专业芯片供应商的方案相比,我觉得这样一个出于‘家用’目的的解决方案的确值得怀疑。”

有意思的是,他把TPU那些在业绩、效率和成就方面取得的“第一”,称为“更具有公关性质的里程碑”。

“在我看来,谷歌总是在努力追赶或超越NVDA的P100s、V100s以及T4s。根据其公布的价格,TPU的使用定价几乎对标了V100,但比T4s要贵。”

面对新老对手发起的密集攻势,英伟达又一次选择了“合纵连横”。

虽然在高性能计算服务器与数据中心市场,英特尔x86处理器占据着最大的市场份额, 但随着基于Arm内核CPU的崛起,传统x86 CPU产品正面临着一定威胁。

作为全球最有名的芯片知识产权(IP)供应商之一,ARM本身不做芯片,而是向芯片厂商出售芯片底层技术。截至目前,华为、苹果、三星、高通、飞利浦等芯片厂商都要被ARM授权使用底层架构才能设计芯片。

就在2019年中旬,英伟达宣布自己的CUDA平台将在年底全面支持Arm CPU,向Arm庞大的生态系统提供全堆栈的AI、HPC软件,一起开发超级计算芯片,进而扩大在数据中心市场的份额。

2019年底,在GTC中国的ARM站展台上,很多人都在围观一款由英伟达与ARM联手提供算力支持的服务器。不少人还在小声嘟囔:

“我靠,ARM现在都搞服务器了。”

不过ARM工程师一直在反复解释:“我们不做服务器,也不做芯片,这个样机只是向大家展示Marvell(服务器品牌)基于ArmV8架构的CPU处理器与英伟达GPU的配置。”

在问及ARM支持的服务器与X86架构CPU的机器之间存在哪些差异时,工程师承认,两者性能方面有时会出现差距,但不能忽视GPU服务器的市场需求。

“这要看服务器的其他配置,有些不同品牌服务器的整体性能可能会弱一些,品类也会少。毕竟是基于(英特尔)X86的市场,很多运行的代码程序都是根据X86来写的,替换会有一定的工作量。

“但是用我们架构的服务器芯片厂商越来越多,而且很多服务器越来越需要GPU。CUDA如果直接支持的话会省去很多麻烦,本质上,我们想做的是一个生态性的联合。”

与其他头部企业一样,为了完成“乐高式”的系统性成长,英伟达也喜欢“买技术”。

2019年3月,英伟达放出消息,欲耗资69亿美元,收购以色列服务器网络架构服务商Mellanox。

这既是英伟达历史上最大的一笔收购,也是这家AI芯片巨头开始有意将核心业务从游戏向数据中心过渡的里程碑事件。

在行业看来,Mellanox最为擅长的,是制造几种用来提升数据传输效率的通信设备。换句话说,就是帮数据中心用最高效的方式,连接数据中心内部所有的服务器。

这意味着,假如英伟达能够通过一套连接系统,将数据中心的数万个计算节点上的GPU连接起来,那么节点间形成的信息流动,将汇聚成更加庞大的算力。

而巨量算力对应的,是云计算数据中心的扩张速度,呈爆发式增长的数据量,更大更复杂的计算任务,以及2023年将突破500亿美元的市场规模。

总体来说,2020年仍然是英伟达“稳赢”的一年。

因为包括英特尔在内,大多数声势响亮的AI芯片公司才刚刚出货,或正在努力出货的路上(有些可能还没出货自己就没了),这又给了英伟达升级产品充裕的时间。

譬如,V100 的性能就通过软件升级在过去一年里提高了4倍,进一步降低了数据中心客户对额外硬件的需求。

当然,在这个存在一系列涉及不同用例的巨大市场中,英伟达的芯片产品不可能形成绝对垄断。但笔者认为,英伟达在10年里建立起的开源帝国,将会让其在云计算市场,乃至边缘计算市场长期扮演关键性角色。

而反过来看,英伟达在2019年第四季度数据中心业务上的漂亮数据,除了让英特尔、高通、英飞凌等老对手们思绪万千,也让无数创业公司与背后的投资者松了一口气——PPT里关于人工智能的某条未来增长线是可期的。在刚成立时,他们就曾搭上过英伟达的顺风车,这一次,英伟达又让他们看到了希望。

就在上周(2020年2月底),上文提及的AI芯片创业公司Graphcore 公开宣布获得1.5亿美元新一轮融资,估值达到19.5亿美元;

本周,近几年来风头很足的AI芯片创业公司寒武纪选择在此时曝光上市信息——已在2019年末与中信证券签署A股上市辅导协议,并计划在科创板发行上市。

在寒冬凛冽的当下,这些消息,的确能够证明些什么。

来源:虎嗅APP

原标题:干掉英伟达?

最新更新时间:03/05 09:32

本文为转载内容,授权事宜请联系原著作权人。

英伟达

8.6k
  • 纳指一季度累涨超9%,英伟达市值增超1万亿美元,纳斯达克100ETF(159659)昨日获资金净流入568万元
  • 美股收评:三大指数录得月线五连涨,标普500指数、道指均创历史收盘新高

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

干掉英伟达?

英伟达已经成为了一家软件公司。

图片来源:视觉中国

文|虎嗅 宇多田

一个记者的提问,让黄仁勋在2019年12月一场媒体沟通会上,二话不说拿起话筒朝头顶狠狠敲了好几下。对了,巨大的回音可以证明他是用力砸的。

这个略显可爱的举动和他接下来的话,让包括我在内的全部记者都笑出声来:

“完了,听到这个问题,我在台上滴水未进,嗓子冒烟的两个小时算是白费了。”

这个记者的问题有些含糊,但也问出了很多人心中的疑惑

英伟达这次为何没发芯片?

这样理解其实也没错。2019年末,当“英特尔们”每隔几天就通过收购、发布新产品等方式,向外界360度无死角“吹风”自己的AI芯片战略时,所有人都在等着英伟达如何在自己的GTC技术大会上,“回应”向自己挑衅的各路人马。

然而,这场会上,除了一块名为Orin的自动驾驶专用芯片,这家全球最具价值的人工智能芯片巨头发布的产品全都是“软件”。而且Orin,还要等到2022年才会投产。

这场会议,完美契合了他在2019年Q3季度财报业绩电话会议上的一个重要观点——

“英伟达已经成为了一家软件公司。”

这家“软件公司”,在2020年2月中旬公布了2020财年第四季财报后,市值一度摸高至接近2000亿美元,创了历史新高。尽管现在已回落至1600多亿美元,但过去两年,英伟达(NASDAQ:NVDA)毫无疑问是华尔街上传奇般的“金股”。随着市场对数据中心越来越强劲的需求,英伟达跟新旧芯片玩家之间的战争,注定将越发血腥。

它崛起背后是什么样的技术动能、巨头争夺?它的未来,又暗示着什么样的巨大市场?

无可比拟的软件优势

由于英伟达越来越多地“露骨”地开始利用其软件实力来销售那些看上去只是硬件的产品,因此我们有理由相信,这家芯片公司已经开始奉行“软件第一”战略。

这很容易让人想起苹果公司的发展路径,以及2007年那个已经被传烂了的乔布斯“软件梗”——

在第5届全数字化大会(All Things Digital conference)上,乔布斯曾与比尔·盖茨谈话时指出,iPhone其实是包在一个漂亮外壳下的软件,苹果是一家软件公司。

股票分析网站Seeking Alpha 证券投资分析师DoctoRx证实过另一个相似故事——

也是在2007年,乔布斯在一场关于iPhone的路演上,被一位投资经理提出质疑:

“虽然你把触摸屏做的很酷炫,但如何避免陷入价格竞争呢?难道不是每个竞争对手都能做触摸屏?”

乔布斯回复:“我们是一家软件公司。”

让我们再回到英伟达身上。如果按照这样一个思路,那么就可以很好解释:为何在近三年来AI芯片市场烽火弥漫,英伟达每年在数十份AI芯片公司的PPT里被“吊打”的“压倒性劣势”中,股价还能稳步走高了。

就像大家很容易遗忘在iPhone发布前,苹果已经在电脑上做了十几年操作系统一样;AI芯片公司们也忘记英伟达是一家显卡供应商的同时,手里还握着另一个杀器:Cuda。

在上世纪90年几乎左右了芯片产业发展方向的英特尔传奇总裁安迪·格鲁夫,有一个逼自己一定要遵守的产业规则:“在这个行业里,要想预见十年后会发生什么,就要回顾过去十年中发生的事情。”

对于英伟达如今在人工智能训练芯片市场确立的垄断性地位,某种程度上也要归功于十年前英伟达首席科学家戴维·柯克一系列在当时看来风险极高的疯狂决策。

一方面,他竭尽全力劝服CEO黄仁勋把GPU通用化——让一块只能渲染图形的独立显卡,变成一个通用计算图形处理器(GPGPU);另一方面强烈要求英伟达现有与即将推出的所有GPU都必须支持Cuda程序。

据自动驾驶公司文远之行技术总监钟华回忆,十几年前还在卡内基梅隆念书时,那个时候给GPU编程需要用机器码深入到显卡内核才能完成任务,非常困难。

“我们用汇编语言写代码,写起来真的非常烧脑。英伟达推出了Cuda以后,相当于把复杂的显卡编程包装成了一个简单的接口,造福了广大程序员。现在主流的深度学习框架基本都是基于Cuda进行GPU并行加速。”

2007年,英伟达正式推出GPU统一计算架构平台Cuda。这一架构的里程碑意义在于,让GPU不再单独存在于个人用户的显卡中,仅为自己的“一亩三分地”工作;而是让GPU通用化,把“个人计算机”变成可以并行运算的“超级计算机”。

虽然初期推广并不顺利,但2009年,由于基于Cuda的高性能运算研究成果陆续在众多知名期刊发表并获得认可,英伟达终于迎来了业务转机,并奠定了之后10年的AI芯片市场绝对霸主地位,为业界提供了强大的并行运算能力。

“Cuda是当时已经濒临破产的英伟达再度崛起不可忽视的推动力。” 高精地图公司极奥科技CTO通过历史上一系列相似产品的发展路径总结出一个经验——给硬件找到简单易用的软件接口形态,才能在市场中迅速被接受并推广至各个细分领域。

2019年,“Cuda之父”柯克博士被美国电气和电子工程师协会(IEEE)授予了协会最高奖项Seymour Cray 计算机工程奖,以表彰他对高性能计算机系统创新的巨大贡献。

如今我们可以看到,英伟达已经在Cuda基础上开发和积累了针对不同领域的大量算法与软件,让数不清的开发者不用写一行代码,就能先让一套深度学习基础模型跑起来,站在巨人的肩膀上升级与优化软件堆栈。

Cuda构建的强大生态,支持所有主流深度学习框架,支持主流云上机器学习训练平台

因此,对于许多AI芯片创业公司,如果可以支持的深度学习框架都不全,能够对接的编程语言也有限,也就无法对许多那些已习惯了从基于Cuda的算法库上传和下载算法、通过Cuda架构使用英伟达跨代产品的开发者,产生足够的吸引力。

这相当于,当你面对眼前的一堆沙子思考如何设计一堵墙时,对手的护城墙不仅已高达数十丈,还广招兼职砌墙工,并为他们提供云梯和入城资格。

“国内很多自动驾驶公司,用的是英伟达PX2片上系统,这个架构最大的好处是方便。

“譬如直接就能把车道线识别,障碍物识别都搭建起来,因为相关算法都可以在网上下载完并进行快速部署,而且还能做配套的硬件加速。而这些算法,也是之前开发者上传的训练模型。”

一位不具姓名的自动驾驶技术人士做如上表示。他称,国内不少人工智能公司就是搭了英伟达的便车发展起来的:“所以你看,英伟达一下子占领了两块儿,一块儿是训练端,一块儿应用端。短期内,不可能有人撼动他们的地位。”

下一个十年的支撑点

2020年2月,美国财经网站MarketWatch用“华尔街为之震惊”,来形容英伟达2020财年Q4财报上数据中心板块的强势表现——

英伟达的芯片销售额达到创纪录的9.68亿美元。

这的确是一个令人瞠目结舌的数字。要知道,2017财年英伟达刚披露这一业务数据时,收入为2.8亿美元;此后,英伟达的服务器芯片历史销售数据历经跌宕起伏,但最好成绩也从未超过8亿美元。

因此,这个数字可以直接向我们证明:数据中心,特别是超大型数据中心对人工智能芯片的需求不仅没有放缓,反而在加速扩张。

从2017年Q4到2020年Q4英伟达各个业务板块的收入变化。图片来自商业定量分析机构Business Quant

实际上,GTC大会有一点被很多人忽视了。老黄发布产品的顺序,与产品对应细分市场在英伟达财报中占据的份额,一直呈现正相关关系。

先是游戏,再是云计算应用、最后是自动驾驶(汽车)。

根据英伟达最新的2020财年Q4财报数据,”游戏“仍然是多年来英伟达的营收支柱板块,收入高达14.9亿美元,约占总营收的47%;

而增长强劲的数据中心板块,如今已经跃升为英伟达最具有市场拓展潜力的业务分支。收入同比增长43%,逼近10亿美元大关;

通常放在财报电话会议上最后说的,是包含了车载信息娱乐与自动驾驶解决方案的汽车业务相关收入。这一部分看似表现平平,只有1.63亿美元,同比增长1%,却是一个不可忽视的长线市场。

这三个板块,更像是对应了英伟达的“过去”、“现在”和“未来”。

虽然“游戏”是图像处理与满足神经网络计算的应用与创新源头,也是英伟达必须守住的老本行。

但趋于饱和、不断被移动端挤压的PC游戏市场,远没有新兴市场带给英伟达的诱惑力更大。

根据游戏市场研究机构Peddie Research的最新数据,过去近5年里,英伟达在PC独立显卡市场,一直占据着70%以上的市场份额,特别是其Geforce系列显卡,极受游戏与挖矿产业的欢迎。

不过,整个PC GPU市场,英特尔才是老大。

图片来自Peddie Research

 

再从游戏整体市场来看,英伟达的GPU产品并不占据明显优势。特别是主机与移动游戏的GPU市场,英伟达常年分别被AMD与ARM压一头。

换句话说,PC游戏市场在某种程度上决定了英伟达游戏业务的增长速度。

对于2019及未来3年的全球游戏市场发展趋势,游戏与电竞市场分析平台NewZoo给出了一个可参考的判断——

在2019年全球游戏市值将达到1488亿美元的基础上,移动游戏占比高达46%;与之相比,单机游戏与PC游戏市场份额分别为453亿与353亿,两者加起来占比仅为23.3%。

到2022年,从PC端向移动端转移的趋势将愈加明显,PC市场游戏份额将被挤压至20%以下,而且收入的增长速度将慢于移动和主机游戏收入的增长速度。

这多少会对英伟达的游戏业务产生影响。

此外,从英伟达2020全财年的游戏收入来看,55.2亿美元的营收额已经比去年减少了近12%。

图片来自NewZoo

实际上,几乎所有华尔街分析师近年来给予英伟达股票高评级的理由,都是“对这家公司在数据中心市场的增长潜力抱有积极态度”。

云,才是人工智能发展的重心,也是英伟达的下一个野心。

对于所有神经网络算法模型来说,训练一般都要在云上进行。因此,这对计算能力、速度以及单位数据传输量有着极高的要求。

特别是由大量神经元组成的深度学习框架,是建立在“矩阵运算”的基础上。虽然“矩阵”的运算形式是简单的加法与乘法,但涉及的数据量非常庞大。

与擅长复杂逻辑运算、但核心数较少的CPU相比,GPU虽然只能进行简单运算,但它是由成千上万个小处理器核心构成的,而且这些小核心可以同时处理任务。

这就好比我想把墙角的几百块砖头挪走,比起雇佣几个大学教授,雇佣100个小学生不仅效率更高,而且更划算。

因此,如果只是进行图片分类,在GPU上计算出答案的速度可能只比在CPU的速度要快上一两秒;但当神经网络在进行训练时,GPUs在“并行计算”上的优势就会十分明显,因为训练时需要进行数百万次的反向传播迭代。

2019年年底的GTC上,英伟达与阿里、百度等中国企业的高调合作,进一步凸现了GPU在云端人工智能算法训练中扮演的重要角色—— “搜索的时代已经结束,智能推荐的时代已经到来。”

对于普通消费者来说,GPU对深度学习推荐模型的贡献其实不难理解。

打开手机淘宝,“有好货”,“每日好店”,“猜你喜欢”……都是深度学习推荐模型在根据你浏览及购买数据,挑出与你喜好相匹配的商品。而这些推荐模型,建立在十亿级商品与用户数据集之上。

此外,抖音以及快手中的推荐系统,也有着过千万的视频上传量与过亿用户的数据基础。

而英伟达的Tesla T4 、V100等处理器与配套加速软件,发挥的主要作用, 便是为基于亿级数据的推荐算法模型训练进行资源分配、量化与加速。

这些相关应用,便是数据中心市场引发的新一轮硬件部署潜在增长趋势。

如果说上一个10年中的数据中心芯片市场急剧扩张,主要取决于2B客户对机房内部基础硬件的疯狂采购;那么新一轮增长动力,则来自于数据中心需要处理的越来越复杂的推理计算工作

如今在数据中心市场,Tesla系列毫无疑问是AI加速方面的主流处理器,用阿里云某工程师的话来说就是:“你当然也可以用CPU去训练,但是解1路视频就要耗掉一块CPU,但却只会消耗GPU的一部分带宽。”

云产业调研机构Liftr Cloud Insights在2019年做出一个估算:截至2019年5月,全球排名前四的公有云服务商,部署有英伟达专用AI加速器的IaaS计算实例类型,就高达97.4%。

很明显,尽管英特尔与AMD等竞争对手在这方面的动作不容小觑,但在未来3~5年内,但他们的GPU解决方案不太可能大幅削减英伟达在数据中心AI加速器领域的市场。

来自传统巨头的撕咬

历史证明,芯片企业是永远不可能睡上安稳觉的。

20世纪80年代,在日本存储芯片厂商强大的低价攻势下,英特尔曾徘徊在垂死边缘,最后孤注一掷,决然放弃存储芯片市场;

2006年,AMD收购了英伟达在显示芯片市场的最大敌人ATI。但这笔收购费太贵,外加在与英特尔的长期价格战中耗费大量资金,AMD此后10年,再无争夺行业老大的任何机会与条件;

而说到英伟达,2009年则是决定它命运的一年。

在英伟达的Cuda还没有被业内广泛采纳的不到1年时间里,由于推出的高端笔记本独立显卡出现了一系列质量问题,英特尔与AMD又趁机“火上浇油”,英伟达股价由最高时的30多美元,跌至6美元左右。

“每次有困难的季度出现,就会有人想顺势搞砸一切。但为了在未来某个节点做出伟大的成就,你就必须在今天承担风险。”

黄仁勋说出这句话的时候,正是10年前股票跌至最低点,整个公司处于十字路口的关键时刻。

但他随后便做出了选择——

裁员以削减成本,延长回购股票计划,在GPU处理器和配套软件上面砸更多的钱,集中精力“笼络”流媒体公司、游戏玩家,以及那时还为数不多,但要求却最为苛刻的科学家与AI工程师。

如此这般若干年后,英伟达迎来当下的黄金年代。

但哪有一劳永逸可言。一路搏斗、一旦选错方向就永无翻身之日的芯片公司们,最不缺的就是危机感,以及总想趁机踩一脚的竞争对手。

因此,在利润丰厚,且仍然是一片蓝海的数据中心AI芯片市场,无论是敌人还是客户,你能想到的一切企业,基本都可以对英伟达构成生存威胁:

英特尔、AMD、高通、ARM、三星、英飞凌等半导体制造商们;

运营着超大数据中心,急切需要多样化AI芯片组技术的亚马逊、微软、谷歌、阿里以及IBM等云服务厂商们。 

以及如今看起来还不成气候,但却数量惊人的创业公司们。

我们需要清楚地认识到,英特尔一直占据着数据中心服务器CPU市场90%以上的市场份额,即便这个细分市场被2017年重回数据中心阵地的AMD蚕食掉4.5%。

当然,也正是因为遍布世界的数据中心塞满了至强X86处理器,英特尔2019年Q3财报上的数据中心板块才取得了有史以来最好看的业绩——95亿美金,占总营收的半壁江山。

但是,云端AI加速器市场,却可能是英特尔有史以来首次失去主导者地位的领域。这家全球最具影响力的芯片企业,不仅正处于“芯片制程工艺停滞不前”的镇痛转型期,还需要努力解决公司内部设计与制造团队之间的隔阂与分歧。

其实在10年前,已经在数据中心具备影响力的英特尔,本是有机会将英伟达“消灭”在襁褓中的。

与游戏市场很不一样,作为典型的2B行业,数据中心市场接受一款全新的处理器产品往往是相当困难的,因为客户们往往喜欢自己熟悉且习惯的东西。

这也是很长一段时间里,英伟达向2B客户拼命宣传Tesla系列芯片,却收效甚少的重要原因。那时GPU只受到实验室以及大型石油及天然气公司的追捧,因为只有他们对算力的要求最为“极端”。

直到2010年,IBM同意把英伟达的Tesla系列显卡塞进自己的服务器里。

这次看起来十分普通的联姻,对英伟达来说却有着里程碑式的意义。因为IBM,是第一家给予Tesla系列认可的主流服务公司。

但对IBM来说,之所以会率先选择与英特尔的对手们签署合作项目,是自己制造的Power服务器芯片与英特尔形成竞争关系。(也因此,在过去十年里,你会发现IBM总是会首先推出基于AMD芯片的服务器,或者是与索尼在芯片上建立合作,联合抵制英特尔在视频游戏机市场的进攻。)

当然,那个时候英伟达的GPGPU由于仅开放了几个关键接口,并不够通用,很多数据中心如果替换处理器,还需要重新写很多代码。

但故事的发展就是这么“恰到好处”:

一方面,英特尔一再推迟对标处理器的发布,给了英伟达充分的迭代时间;而另一方面,由于服务器CPU产品遭到英特尔的碾压,另一个对手AMD在2013年退出数据中心市场,直到2018年才卷土重来。

用当时Tesla业务线负责人Andy Keane话来说就是:得到主流支持,就像是为基于数年研发的Tesla芯片开了一道泄洪闸门,使英伟达的数据中心业务线彻底爆发。

因此,总是错过关键时间节点的英特尔,现在真的着急了。

“英特尔之前收购的人工智能创业公司Nervana,2014年就说要做芯片,但2019年才推出一个深度学习推理芯片,所以现在压力很大。

“在AI加速器方面,很多云技术厂商的速度都几乎跟他们同步了,更不用说英伟达。”

一位集成电路从业者告诉虎嗅,英特尔如今只能靠大量“收购”来补齐这些缺失的模块,亦如他们大部分与AI能力相关的东西都是靠买得来的。

2019年半导体界最为轰动的并购交易——英特尔耗资20亿美元收购以色列公司Habana,便是其抗击英伟达颇为关键的一步棋。

Habana迄今为止就推出了两款处理器:训练芯片Gaudi与推理芯片Goya。前者对标英伟达的tesla V100,后者对标推理芯片T4。

鉴于V100与T4都是目前数据中心采用的主流AI加速器,所以我们可以理解为,Habana就是为争夺英伟达在数据中心市场份额的“存在”。

其中,Gaudi与许多AI专有训练芯片最大的不同在于,允许数据在多个计算节点之间共享的方式更加开放——一台电脑可以通过另一个城市的另一台电脑访问内存,不会占用自己的CPU,大大提升了使用效率。

这意味着,该能力允许用户更加高效地跨网络或加速器结构来共享数据,尤其适合在大规模并行计算机集群中使用。

当然,除了靠“买”抢占市场,英特尔更为直接粗暴的竞争方式是——升级至强处理器、或者直接推出专门用于数据中心的GPU方案。

2019年4月,英特尔发布第二代至强处理器时,格外强调了“这是第一个内置了人工智能加速处理模块的CPU架构”;2020年中旬,一款基于Xe 架构的GPU 也将面世,而英特尔已经承认,这个产品是为数据中心量身定做的。

与英特尔相比,重返数据中心市场没多久的AMD,暂时不会对英伟达在这个市场的产品线构成威胁。

但请记住,AMD在本月被曝光细节的代号为“Arcturus”的服务器加速卡Radeon Instinct MI100,是一块针对数据中心和重量级计算任务而设计的GPU,旨在对标英伟达的T4。

新对手登台:好戏在后头

在英伟达GPU对数据中心不断渗透的过程中,除了老对手的夹击,数据中心经营者格局也在发生显著变化——

AI相关应用的急剧增长,引发了市场对超大型数据中心的强劲需求。

超级数据中心不同于典型的数据中心,从字面意义来看,他们的体量显然更为庞大,有成千上万台服务器以及数百万台虚拟机。因此,他们有足够的能力来处理一个小型数据中心所不能承受的“AI计算之痛”。

而云服务专业媒体CRN在2019年底给出了两组有趣的调查数字:

首先,以公共云巨头亚马逊AWS、微软Azure、阿里、谷歌、腾讯等科技巨头为首的超大规模数据中心运营商,正在迅速抢占数据中心市场的支出份额。目前,数据中心硬件和软件上每3美元的支出,就有1美元来自这类企业。

其次,自2013年以来,这类超大型数据中心的数量增加了两倍。截至2019年第三季度末,共有504个由巨头运营的超大规模数据中心,正在建设的则至少有150个。

因此,结合超级数据中心的成本支出与增长情况,一方面,服务器以及其他配套硬件还会源源不断被送进机房;

另一方面,AI处理任务的持续增长,又会倒逼服务器的配置要得到持续的升级。

根据人工智能非营利组织Open.AI公布的调查数据,深层神经网络的规模与复杂性,每3.5个月翻一番。因此,在被赋予更多更艰巨的计算任务的过程中,这些硬件的复杂程度与处理器性能也被提出了更高的要求。

举个例子,亚马逊AWS自2015年以后,便陆续在每个地区的数据中心部署了大量T4。原因就在于这些GPGPU擅长执行像“对话式AI”、“人工智能推荐”这种高性能计算工作负载。

而像商汤、旷视这样的人脸识别独角兽企业,需要在建立的超算中心里部署超万块GPU。据商汤内部工程师透露,他们每天在算法平台上进行数据训练迭代的单次成本,就高达数十万元。

因此,我们可想而知,亚马逊、微软、阿里、谷歌等Top级云服务商的云计算数据中心,为了支持自己与客户的深度学习训练任务,所需要的GPU量级到底有多大。

显然,这个变化对所有数据中心的建设参与者,包括创业公司在内,都是一个绝对不能放手的巨大利益池。

特别是云数据中心经营商,高昂的训练时间与资金成本让他们也甘愿下海一搏。

在一场不久前清华闭门交流会上,虎嗅有幸听到了阿里达摩院资深算法专家杨永霞对云上如何训练若干种卷积神经网络模型的深度解析,而她在不经意间,也流露出因硬件跟不上计算要求而产生的焦虑:

“一点几PB的数据量,用8卡Tesla V100计算就要超过20个小时,而我们其实有几百PB的数据。一块V100就几万块,真的是用不起啊。”

在这样的需求形势下,谷歌推出自称性能可达同等级GPU产品15~30倍的AI专有芯片TPU;亚马逊与阿里陆续推出旨在以极低成本交付高吞吐量的云端AI推理芯片;微软为了能够追上这股“造芯新时尚”,急忙在2019年11月宣布,将在云上释放英国AI芯片创业公司Graphcore(这家企业的“成名作”是一块被称为IPU的“智能处理单元”IPU及其配套软件Poplar,专门为人工智能应用程序所需的并行计算而设计)提供的复杂图像模型处理能力……

无论商用效果如何,以上都是云服务商不得已而为之的一个选择。

但需要注意的是,这些云服务企业自研的大多是推理芯片。

由于神经网络模型在训练阶段需要处理大量数据,同时也要完成不同的学习任务,因此GPU具备的大量平行运算单元,能够充分满足“训练”对运算的效率与通用性要求。

但进入执行阶段,也就是“推理阶段”,一个算法模型可以根据一堆量级不大的新数据得出结论。GPU当然也可以做到这些,但多少有点“大材小用”。

没错,这就是亚马逊、阿里为何研发定制推理芯片的另一个重要原因——对于大量推理工作,通用性或许不足,但专用肯定是有余了。

但有不愿透露姓名的业内人士对这些“自研芯片”存有疑虑。因为他认为,无论是自己做,还是部署其他公司的商用芯片,难度其实不相上下。

“云服务商如果真的打算在AI加速器上花钱,那么他们想要的一定是这项工具的灵活性,而非只满足于实现单一目的。”

目前来看,只有英伟达GPU等少数几家公司具备这样的优势——让一块芯片驾驭不同的工作类型,譬如GaaS(游戏图像渲染)、高性能计算加速以及模型训练与推理。

因此,在“更专业的精英”与“全能却稍微平庸的人”之间,趋利的市场暂时会倾向于后者。

此外,即便某块专有芯片比GPGPU更擅长处理某个任务,但后续却可能需要一大批人为这块芯片开发新的人工智能代码。

说到底,这仍然少不了生态之间的较量。

在微软选择与Graphcore合作后,技术分析机构Moor Insights分析师Karl Freund曾公开表示,这种芯片虽然看起来像是“名校高材生”,但灵活性仍然让人怀疑。

“没有证据表明其具备更好的可编程性,这让工程师们不足以去开发新的应用程序。即便是可编程性能做到,但在训练和推理方面都能取得好成绩吗?对于芯片创业公司来说,这很困难。”

的确,Graphcore曾强调自己的芯片“特别适合”完成那些超大人工智能模型或时间数据的训练任务。但是,他们自己创建的软件框架Poplar,目前看起来也不太可能对抗在AI开发者群体具有极高威望的谷歌深度框架Tensorflow。而后者被英伟达的GPU产品所支持。

甚至于投资分析师DoctoRx对谷歌的TPU也心存质疑。

他认为,在部署时,谷歌构建的规范并没有他们想象的那么有效,这很大程度上是因为成本所致。

“虽然我不确定谷歌在宣布对外出租TPU能力后的接下来会实施什么样的计划,但与专业芯片供应商的方案相比,我觉得这样一个出于‘家用’目的的解决方案的确值得怀疑。”

有意思的是,他把TPU那些在业绩、效率和成就方面取得的“第一”,称为“更具有公关性质的里程碑”。

“在我看来,谷歌总是在努力追赶或超越NVDA的P100s、V100s以及T4s。根据其公布的价格,TPU的使用定价几乎对标了V100,但比T4s要贵。”

面对新老对手发起的密集攻势,英伟达又一次选择了“合纵连横”。

虽然在高性能计算服务器与数据中心市场,英特尔x86处理器占据着最大的市场份额, 但随着基于Arm内核CPU的崛起,传统x86 CPU产品正面临着一定威胁。

作为全球最有名的芯片知识产权(IP)供应商之一,ARM本身不做芯片,而是向芯片厂商出售芯片底层技术。截至目前,华为、苹果、三星、高通、飞利浦等芯片厂商都要被ARM授权使用底层架构才能设计芯片。

就在2019年中旬,英伟达宣布自己的CUDA平台将在年底全面支持Arm CPU,向Arm庞大的生态系统提供全堆栈的AI、HPC软件,一起开发超级计算芯片,进而扩大在数据中心市场的份额。

2019年底,在GTC中国的ARM站展台上,很多人都在围观一款由英伟达与ARM联手提供算力支持的服务器。不少人还在小声嘟囔:

“我靠,ARM现在都搞服务器了。”

不过ARM工程师一直在反复解释:“我们不做服务器,也不做芯片,这个样机只是向大家展示Marvell(服务器品牌)基于ArmV8架构的CPU处理器与英伟达GPU的配置。”

在问及ARM支持的服务器与X86架构CPU的机器之间存在哪些差异时,工程师承认,两者性能方面有时会出现差距,但不能忽视GPU服务器的市场需求。

“这要看服务器的其他配置,有些不同品牌服务器的整体性能可能会弱一些,品类也会少。毕竟是基于(英特尔)X86的市场,很多运行的代码程序都是根据X86来写的,替换会有一定的工作量。

“但是用我们架构的服务器芯片厂商越来越多,而且很多服务器越来越需要GPU。CUDA如果直接支持的话会省去很多麻烦,本质上,我们想做的是一个生态性的联合。”

与其他头部企业一样,为了完成“乐高式”的系统性成长,英伟达也喜欢“买技术”。

2019年3月,英伟达放出消息,欲耗资69亿美元,收购以色列服务器网络架构服务商Mellanox。

这既是英伟达历史上最大的一笔收购,也是这家AI芯片巨头开始有意将核心业务从游戏向数据中心过渡的里程碑事件。

在行业看来,Mellanox最为擅长的,是制造几种用来提升数据传输效率的通信设备。换句话说,就是帮数据中心用最高效的方式,连接数据中心内部所有的服务器。

这意味着,假如英伟达能够通过一套连接系统,将数据中心的数万个计算节点上的GPU连接起来,那么节点间形成的信息流动,将汇聚成更加庞大的算力。

而巨量算力对应的,是云计算数据中心的扩张速度,呈爆发式增长的数据量,更大更复杂的计算任务,以及2023年将突破500亿美元的市场规模。

总体来说,2020年仍然是英伟达“稳赢”的一年。

因为包括英特尔在内,大多数声势响亮的AI芯片公司才刚刚出货,或正在努力出货的路上(有些可能还没出货自己就没了),这又给了英伟达升级产品充裕的时间。

譬如,V100 的性能就通过软件升级在过去一年里提高了4倍,进一步降低了数据中心客户对额外硬件的需求。

当然,在这个存在一系列涉及不同用例的巨大市场中,英伟达的芯片产品不可能形成绝对垄断。但笔者认为,英伟达在10年里建立起的开源帝国,将会让其在云计算市场,乃至边缘计算市场长期扮演关键性角色。

而反过来看,英伟达在2019年第四季度数据中心业务上的漂亮数据,除了让英特尔、高通、英飞凌等老对手们思绪万千,也让无数创业公司与背后的投资者松了一口气——PPT里关于人工智能的某条未来增长线是可期的。在刚成立时,他们就曾搭上过英伟达的顺风车,这一次,英伟达又让他们看到了希望。

就在上周(2020年2月底),上文提及的AI芯片创业公司Graphcore 公开宣布获得1.5亿美元新一轮融资,估值达到19.5亿美元;

本周,近几年来风头很足的AI芯片创业公司寒武纪选择在此时曝光上市信息——已在2019年末与中信证券签署A股上市辅导协议,并计划在科创板发行上市。

在寒冬凛冽的当下,这些消息,的确能够证明些什么。

来源:虎嗅APP

原标题:干掉英伟达?

最新更新时间:03/05 09:32

本文为转载内容,授权事宜请联系原著作权人。