正在阅读:

前有微软后有谷歌,亚马逊云科技的AI之战如何打?

扫一扫下载界面新闻APP

前有微软后有谷歌,亚马逊云科技的AI之战如何打?

对亚马逊云科技而言,AI驱动的云计算时代还处于早期阶段,这家云巨头目前还没有犯错,它仍有耐心陪对手长跑。

图:匡达

界面新闻记者 | 彭新 程璐

美国时间1128日,在拉斯维加斯举办的亚马逊云科技re:Invent大会上,一位嘉宾意外登场——英伟达CEO黄仁勋,

一位re:Invent参会的亚马逊云科技员工为黄仁勋亮相感到意外,“公司保密做得太好了”,他描述在当时的感受称,就是那种在体育场外面听演唱会的感觉。由于种种原因,该员工无法进入大会主会场,而在现场,参会者纷纷掏出手机拍照、鼓掌,为“AI教父黄仁勋送上摇滚明星待遇。

尽管GPU巨头的风头目前无出其右,且黄仁勋热衷为合作伙伴站台,但他亮相亚马逊云科技年度旗舰技术大会,仍是头一遭。在台下数千名观众欢呼下,黄仁勋侃侃而谈,大谈AI为云计算带来的变革。随即,他与亚马逊云科技 CEO Adam Selipsky一道,公布英伟达与亚马逊云科技的多项新合作,包括亚马逊云科技将率先支持英伟达最新推出的H200 GPU,并将引入NVIDIA DGX Cloud,同时,英伟达正与亚马逊云科技一起设计世界上最快的AI超级计算机,配备超1.6万颗GH200超级芯片,用来推动下一波生成式AI创新。

黄仁勋这一亮相效果拉满,让一系列市场传闻不攻自破:年初以来,市场传言两大巨头不合,有说法称亚马逊云科技早前拒绝上线英伟达人工智能云服务DGX Cloud的提议,随着双方合作协议签署,市场放下部分担忧,《华尔街日报》称两大巨头目前彼此需要

re:Invent一系列云计算技术发布和合作项目发布中,AI贯穿始终,囊括AI基础模型、芯片、数据库、云实例等。亚马逊云科技已经充分意识到,其在AI新一波浪潮下并未掌握先机,必须全力以赴。202211月,OpenAI发布ChatGPT,迅速席卷全球,掀起新一轮生成式AI浪潮。随后,微软、谷歌、甲骨文等对手纷纷加码押注,让云计算领域最大的玩家从外界看起来却像是转身最迟缓的那头大象。

AI寻增长

亚马逊云科技最早于2006年推出,伴随云计算时代到来,其已经成为全球云市场最大玩家。根据市场调研机构Synergy Research统计,2023年二季度,亚马逊云科技在IaaS+PaaS(基础设施即服务+平台即服务)市场占有率为32%。在第三季度,亚马逊财报好于预期,其中亚马逊云科技营收同比增长12%231亿美元,运营利润同比增长30%70亿美元,而亚马逊公司整体运营利润为112亿美元,这意味着亚马逊云科技贡献了亚马逊公司约62%的运营利润,是主要的现金引擎。

亚马逊云科技全球云市场占据最大份额,然而增速却在放缓,由于对经济衰退的担忧,企业在云服务上的支出更加谨慎,作为亚马逊云科技一大客户来源,初创公司正在大幅削减云支出。此外,云基础设施的运营成本随能源价格飙增而高企,在争取新客户时又要提出更有竞争力的价格,宏观经济环境对亚马逊云业务产生了复杂的不利影响,眼下面临着短期增长阻力。

当微软云服务Azure和明星AI公司OpenAI的合作扩大后,微软被视为是亚马逊在人工智能领域的一大主要竞争对手。同期,微软公布第三季度的Azure云业务增长29%,而谷歌云计算部门增长22%,这两家公司在市场份额上落后于亚马逊,但近期在云计算方面的增长率都高于亚马逊。

如何在两大对手之间找到AI领域的强劲增长点,已是摆在亚马逊云科技这家云霸主面前的现实问题。

云巨头对AI并不陌生,亚马逊便长期借助机器学习驱动业务,如用于电商部门的商品推荐和广告算法等,其技术底座由亚马逊云科技提供,长期以来,亚马逊云科技对外强调其AI技术领先性,但主要触达企业级市场。

大模型的风潮席卷行业后,亚马逊云科技动作频频。今年4月,亚马逊云科技发布了生成式AI云服务Amazon Bedrock和自研基础模型Amazon Titan等一系列工具,为企业提供自建大模型应用的基础服务。此外,亚马逊云科技发布了基于自研的AI训练芯片Trainium和推理芯片Inferentia2的算力基础设施,亚马逊云科技称采用了Trainium的云服务器将大模型训练成本降低了50%

相比一部分业务可直接面向消费者的微软和谷歌,亚马逊云科技把AI落地的重点长期放在开发者和企业部门,这一特点贯穿了亚马逊云科技在生成式AI落地的过程。

例如,亚马逊云科技上受到欢迎的云服务Amazon SageMaker,便是面向机器学习开发者的集成开发环境和全托管服务。它依托多项工具,使开发人员和数据科学家能够从简化构建、训练和部署机器学习模型的过程。在今年re:Invent大会上,亚马逊云科技发布了加速基础模型训练的Amazon SageMaker HyperPod、降低AI推理成本和延迟的Amazon SageMaker Inference、辅助开发者评估、比较和选择模型的Amazon SageMaker Clarify等五项新功能。

面向企业客户,云厂商各有落地路径。微软在AI办公产品上占据先发优势,2021年,微软旗下的代码托管平台Github推出AI编程助手Copilot,服务在20226月全面开放。202210月,微软将DALL·E 2模型融入图像处理软件“Designer”等产品中中。随后在20232月,微软在旗下协同会议软件Teams中推出高级服务,嵌入ChatGPT功能,可以自动生成会议笔记、推荐任务和个性化重点内容,并自动以话题为单位,将会议视频分为多个单元等。在今年下半年,办公套件Microsoft 365、操作系统Windows 11等产品均导入AI功能,强化企业AI业务能力。

与微软利用软件生态优势侧重AI内容生产不同,亚马逊云科技希望打通企业内部数据强化生产能力,其发布其首个基于生成式AI开发的应用——办公助手“Amazon Q(下称Q即着眼于此,类似于ChatGPT等聊天应用,但Amazon Q更强调办公场景,可用于辅助办公业务流程,典型场景包括物流管理、企业联络中心、数据查询分析等。1212日,亚马逊云科技宣布Amazon Q落地供应链管理服务,客户可以向系统提问补货订单延迟时间、如何规划物流方案等,改善供应链管理。

企业数据如何利用、AI落地场景,已经有云厂商打样展示可能性,大模型带来的业务潜力让原本收紧支出的客户又愿意投入,云需求量在变大。一位亚马逊云科技员工告诉界面新闻,接入跨国公司的中国业务以及满足中国公司出海所需占据了亚马逊云科技在中国的云业务很大一部分,但客户现在更愿意找到亚马逊云科技,讨论AI大模型的训练以及落地问题。

不过,AI落地也非一蹴而就,每个步骤都需要大量云计算资源和配套工具——如数据处理工具、开发模型的框架、运维系统等。有云服务用户发现,生成式AI驱动业务的理想很丰满,现实却不见得美妙,前述亚马逊云科技员工坦言,很多企业数据资产远没有到位,导致AI落地难以为继,需要从头补课

亚马逊扶持的初创公司Anthropic被称为OpenAI最大的竞争对手。926日,亚马逊宣布,将向Anthropic投资至多40亿美元,获得其少数股权,后者最新估值约300亿美元,回报是Antropic把亚马逊云科技作为主要云提供商、使用亚马逊云科技自研AI芯片进行大模型训练。

Anthropic核心成员早由一批从OpenAI出走的员工组成,后者也是OpenAI大语言模型GPT-2GPT-3的核心研发人员,由于与OpenAI管理层出现意见分歧而离职创业。产品上,Anthropic推出对标ChatGPT的聊天产品Claude。在公开场合中,Anthropic也不断强化打造更安全AI产品的理念,与OpenAI形成差异化。

安全亦是亚马逊云科技在re:Invent中多次强调的概念,尽管市面上许多AI应用功能已十分强大,但这些应用不懂具体的公司、员工,在工作场景下并不可用。此外,这些产品的发布也欠缺数据隐私、安全上的能力,导致许多CIO(首席信息官)在公司内部禁用了这些聊天助手。我们开发生成式AI应用从一开始就考虑这些问题。亚马逊云科技 CEO Adam Selipsky称,亚马逊云科技不会使用客户数据来训练AI模型,Amazon Q也不会跨越员工不同数据权限间的防火墙。

他还不点名”提及最大竞争对手微软。你不会希望看到云供应商受制于一家模型提供商,而是需要一个真正的选择……过去10天发生的事件已经非常清楚地表明了这一点。他口中的事件指的是OpenAI11月经历的一场戏剧性人事动荡,一度令公司CEO等管理层成员出局,并陷入公众对其AI安全能力质疑。

不过,另一大对手谷歌亦是Anthropic的投资方,与亚马逊相比,谷歌在AI芯片、企业服务、云产品等已基本对齐,大模型上布局更广,内部主攻AI的部门是DeepMind,今年3月上线ChatGPT竞品Bard,与Anthropic也有竞争关系。AI初创生态上,谷歌还参与投资AI初创公司Hugging FaceAI21 LabsCharacter.AIAI视频生成公司RunwayAI文生图公司Midjourney等。

亚马逊云科技全球销售、市场和服务高级副总裁Matt Garman对此告诉界面新闻,从安全、数据隐私、选择性和性价比能力支持企业发展生成式AI。他称,安全和数据隐私是亚马逊云科技的优先考量,这样客户可以在可信赖环境中运行模型;此外,通过Amazon Bedrock为客户提供尽可能多的模型选择,如AnthropicCohereMetaStability AI等等,以及亚马逊自研模型Amazon Titan等;

最后,我们自研芯片,也与英伟达合作,为客户提供更多选择,让他们能够以最佳性价比、使用最合适的芯片运行不同的工作负载。他说。言外之意,芯片是亚马逊云科技的“底牌”之一。

芯片是底牌

2016年,谷歌专门为机器学习打造了TPU(张量处理器),专门针对AI计算做优化,曾应用于击败中国棋手柯洁的AlphaGo上。随后TPU成为谷歌自研AI芯片名片,今年12月,谷歌发布新款的TPU v5p,是谷歌性能最强的AI芯片,配置HBM高带宽显存,部署在谷歌云平台中,强化大模型训练性能,以服务的形式售卖。

对于谷歌TPU的性能表现,外界长期抱有巨大兴趣,但TPU不对外出货,只能从谷歌发布的研究论文和Benchmark(性能评估)来了解。从整个数据中心市场来看,TPU代表了云厂商自研AI芯片的最高水准,并训练出了BertGemini等性能先进的AI大模型,在性能上并不弱于OpenAIGPT系列模型。谷歌开发TPU的成绩激励了一众有自研芯片冲动的云服务商。

实际上,亚马逊的自研芯片之路并不比谷歌晚。2015年,亚马逊云科技收购芯片公司Annapurna Labs,目的就是为了设计定制化芯片,来支持不同的云服务需求。201811月,亚马逊云科技发布了云实例A1,由基于Arm架构的自研Graviton处理器支持,面向对成本更敏感的通用型任务,用来替代英特尔的服务器处理器。201912月,亚马逊发布第二代Arm服务器芯片Graviton2,性能提升7倍,可应付更多、更复杂的工作类型。

目前,云端CPU绝大部分都是英特尔x86架构处理器,技术和市场的成熟造就了x86当前绝对优势。不过,x86服务器芯片诞生于客户端/服务器(Client/Server)架构,并非完全根据云上负载设计。因此,在云计算场景下,不能满足一些专业场景的专业需求。此外,x86服务器同时也存在能耗问题。

这就为Arm架构芯片提供机会,Arm架构的商业模式也使得云厂商有更高的设计自主性。 不过Arm在服务器领域目前仍处于早期阶段,份额低,软件生态也不完善,但基于Arm架构的服务器芯片通常具有体积小、能效比强,发热量低,且价格相对低廉的特点。数据中心是能耗、占地大户。有云厂商分析认为,Arm服务器多核心的特点尤其适合电商里常见的一些并发场景,比如图片、视频等的压缩和解密。

据悉,目前亚马逊云科技上TOP100Amazon EC2(亚马逊云服务器,也被称为实例,是亚马逊云科技最早也最经典的云产品)客户都是Graviton的客户。

AI计算领域,今年4月,亚马逊云科技发布了基于自研的AI训练芯片Trainium和推理芯片Inferentia2的云实例。亚马逊云科技称采用了Trainium的实例将大模型训练成本降低了50%,最多可以将30000Trainium芯片连接起来提供超过6 exaflops的算力集群,连接带宽可高达1600Gbps;推理方面,亚马逊云科技称Inferentia2针对大模型推理进行优化,将推理的性价比提高了40%

亚马逊云科技在本次re:Invent期间更新了AI训练芯片Trainium2,适用于图像分类、自然语言处理、机器翻译、推荐系统、生成式模型等。亚马逊云科技称,Trainium2相较于第一代速度提升至4倍,能够部署在多达10万个芯片的计算集群中,大幅降低了训练模型的时间,同时提高至2倍的能效表现。随着Trainium2的发布,亚马逊云科技在面对生成式AI的算力需求有了更充足的底气。

机器学习一般分为两个阶段,首先导入大量数据,对模型进行训练(training),整个过程可能耗时数天、数周甚至数月;之后是训练出的模型在实际场景中作出推理(inference)。不同阶段,对应的芯片负载需求会有所不同。

AI的部署也是一个多元化的问题,绝大多数公司不会百分之百地依赖某一种芯片产品,而是会青睐混合模式。亚马逊云科技计算和网络副总裁David Brown提到,当AI负载用于训练时,客户可能会选择英伟达的芯片,但选择总会随着时间变化而发生改变,客户总希望尝试不同的新方案,最终永远不会有一个真正获胜的玩家,市场总会有英伟达GPUTrainium、或者市场上的其他芯片选择。

算力芯片之外,亚马逊云科技还推出Nitro,定义其为虚拟化芯片,至今更新到第五代,功能类似于英伟达近年力推的DPU,主要用来提供网络、安全等功能,提升算力使用效率。

对于AI能否迅速驱动新一轮行业变化,云厂商已有初步共识,并积极行动。市场竞争环境则在发生变化,云计算领域正转向由AI驱动,基于AI驱动的云业务成为新增长点。

微软寄希望于AI实现云业务对亚马逊云科技的追赶,凭借与OpenAI绑定合作,微软在消费者、企业产品中积极部署OpenAI模型,吸引客户使用。10月,微软CEO纳德拉在三季度财报会上称,目前有超过1.8万个组织通过Azure使用OpenAI模型服务,其中很多是Azure的新客户;作为对比,7月底这一客户规模为1.1万个。微软首席财务官Amy Hood透露,AI服务为Azure贡献3个百分点的增长。

另一大巨头谷歌亦加紧动作,re:Invent结束后仅一周,谷歌随即发布多模态大模型Gemini(双子座)和AI芯片TPU v5p,展示AI实力,试图在技术和市场声量上,追上微软/OpenAI组合。

几乎所有公司现在都认识到了生成式AI的变革性,这对亚马逊云科技来说也是另一个巨大的机会。12月初接受CNBC采访时,亚马逊CEO安迪·贾西(Andy Jassy)称,他强调,在基于生成式AI的市场上,亚马逊云科技未来将存在上百亿美元的收入机会。但对于外界关心的AI上投入如何反哺至业绩的问题,安迪·贾西就表示,生成式AI还在早期阶段,几乎所有公司仍在探索如何应用。

对亚马逊云科技而言,AI驱动的云计算时代还处于早期阶段,这家云巨头目前还没有犯错,它仍有耐心陪对手长跑。亚马逊云科技在2006年开始布局云计算市场,反映在市场份额和利润上的优势已是很长一段之后。但亚马逊云科技也证明了,先期的远见以及坚定的战略执行,是足以让一家巨头持续蓬勃发展,以此标准来看,微软、谷歌都是强有力的竞争对手,三巨头在云端的AI大战,仍有得打。

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

前有微软后有谷歌,亚马逊云科技的AI之战如何打?

对亚马逊云科技而言,AI驱动的云计算时代还处于早期阶段,这家云巨头目前还没有犯错,它仍有耐心陪对手长跑。

图:匡达

界面新闻记者 | 彭新 程璐

美国时间1128日,在拉斯维加斯举办的亚马逊云科技re:Invent大会上,一位嘉宾意外登场——英伟达CEO黄仁勋,

一位re:Invent参会的亚马逊云科技员工为黄仁勋亮相感到意外,“公司保密做得太好了”,他描述在当时的感受称,就是那种在体育场外面听演唱会的感觉。由于种种原因,该员工无法进入大会主会场,而在现场,参会者纷纷掏出手机拍照、鼓掌,为“AI教父黄仁勋送上摇滚明星待遇。

尽管GPU巨头的风头目前无出其右,且黄仁勋热衷为合作伙伴站台,但他亮相亚马逊云科技年度旗舰技术大会,仍是头一遭。在台下数千名观众欢呼下,黄仁勋侃侃而谈,大谈AI为云计算带来的变革。随即,他与亚马逊云科技 CEO Adam Selipsky一道,公布英伟达与亚马逊云科技的多项新合作,包括亚马逊云科技将率先支持英伟达最新推出的H200 GPU,并将引入NVIDIA DGX Cloud,同时,英伟达正与亚马逊云科技一起设计世界上最快的AI超级计算机,配备超1.6万颗GH200超级芯片,用来推动下一波生成式AI创新。

黄仁勋这一亮相效果拉满,让一系列市场传闻不攻自破:年初以来,市场传言两大巨头不合,有说法称亚马逊云科技早前拒绝上线英伟达人工智能云服务DGX Cloud的提议,随着双方合作协议签署,市场放下部分担忧,《华尔街日报》称两大巨头目前彼此需要

re:Invent一系列云计算技术发布和合作项目发布中,AI贯穿始终,囊括AI基础模型、芯片、数据库、云实例等。亚马逊云科技已经充分意识到,其在AI新一波浪潮下并未掌握先机,必须全力以赴。202211月,OpenAI发布ChatGPT,迅速席卷全球,掀起新一轮生成式AI浪潮。随后,微软、谷歌、甲骨文等对手纷纷加码押注,让云计算领域最大的玩家从外界看起来却像是转身最迟缓的那头大象。

AI寻增长

亚马逊云科技最早于2006年推出,伴随云计算时代到来,其已经成为全球云市场最大玩家。根据市场调研机构Synergy Research统计,2023年二季度,亚马逊云科技在IaaS+PaaS(基础设施即服务+平台即服务)市场占有率为32%。在第三季度,亚马逊财报好于预期,其中亚马逊云科技营收同比增长12%231亿美元,运营利润同比增长30%70亿美元,而亚马逊公司整体运营利润为112亿美元,这意味着亚马逊云科技贡献了亚马逊公司约62%的运营利润,是主要的现金引擎。

亚马逊云科技全球云市场占据最大份额,然而增速却在放缓,由于对经济衰退的担忧,企业在云服务上的支出更加谨慎,作为亚马逊云科技一大客户来源,初创公司正在大幅削减云支出。此外,云基础设施的运营成本随能源价格飙增而高企,在争取新客户时又要提出更有竞争力的价格,宏观经济环境对亚马逊云业务产生了复杂的不利影响,眼下面临着短期增长阻力。

当微软云服务Azure和明星AI公司OpenAI的合作扩大后,微软被视为是亚马逊在人工智能领域的一大主要竞争对手。同期,微软公布第三季度的Azure云业务增长29%,而谷歌云计算部门增长22%,这两家公司在市场份额上落后于亚马逊,但近期在云计算方面的增长率都高于亚马逊。

如何在两大对手之间找到AI领域的强劲增长点,已是摆在亚马逊云科技这家云霸主面前的现实问题。

云巨头对AI并不陌生,亚马逊便长期借助机器学习驱动业务,如用于电商部门的商品推荐和广告算法等,其技术底座由亚马逊云科技提供,长期以来,亚马逊云科技对外强调其AI技术领先性,但主要触达企业级市场。

大模型的风潮席卷行业后,亚马逊云科技动作频频。今年4月,亚马逊云科技发布了生成式AI云服务Amazon Bedrock和自研基础模型Amazon Titan等一系列工具,为企业提供自建大模型应用的基础服务。此外,亚马逊云科技发布了基于自研的AI训练芯片Trainium和推理芯片Inferentia2的算力基础设施,亚马逊云科技称采用了Trainium的云服务器将大模型训练成本降低了50%

相比一部分业务可直接面向消费者的微软和谷歌,亚马逊云科技把AI落地的重点长期放在开发者和企业部门,这一特点贯穿了亚马逊云科技在生成式AI落地的过程。

例如,亚马逊云科技上受到欢迎的云服务Amazon SageMaker,便是面向机器学习开发者的集成开发环境和全托管服务。它依托多项工具,使开发人员和数据科学家能够从简化构建、训练和部署机器学习模型的过程。在今年re:Invent大会上,亚马逊云科技发布了加速基础模型训练的Amazon SageMaker HyperPod、降低AI推理成本和延迟的Amazon SageMaker Inference、辅助开发者评估、比较和选择模型的Amazon SageMaker Clarify等五项新功能。

面向企业客户,云厂商各有落地路径。微软在AI办公产品上占据先发优势,2021年,微软旗下的代码托管平台Github推出AI编程助手Copilot,服务在20226月全面开放。202210月,微软将DALL·E 2模型融入图像处理软件“Designer”等产品中中。随后在20232月,微软在旗下协同会议软件Teams中推出高级服务,嵌入ChatGPT功能,可以自动生成会议笔记、推荐任务和个性化重点内容,并自动以话题为单位,将会议视频分为多个单元等。在今年下半年,办公套件Microsoft 365、操作系统Windows 11等产品均导入AI功能,强化企业AI业务能力。

与微软利用软件生态优势侧重AI内容生产不同,亚马逊云科技希望打通企业内部数据强化生产能力,其发布其首个基于生成式AI开发的应用——办公助手“Amazon Q(下称Q即着眼于此,类似于ChatGPT等聊天应用,但Amazon Q更强调办公场景,可用于辅助办公业务流程,典型场景包括物流管理、企业联络中心、数据查询分析等。1212日,亚马逊云科技宣布Amazon Q落地供应链管理服务,客户可以向系统提问补货订单延迟时间、如何规划物流方案等,改善供应链管理。

企业数据如何利用、AI落地场景,已经有云厂商打样展示可能性,大模型带来的业务潜力让原本收紧支出的客户又愿意投入,云需求量在变大。一位亚马逊云科技员工告诉界面新闻,接入跨国公司的中国业务以及满足中国公司出海所需占据了亚马逊云科技在中国的云业务很大一部分,但客户现在更愿意找到亚马逊云科技,讨论AI大模型的训练以及落地问题。

不过,AI落地也非一蹴而就,每个步骤都需要大量云计算资源和配套工具——如数据处理工具、开发模型的框架、运维系统等。有云服务用户发现,生成式AI驱动业务的理想很丰满,现实却不见得美妙,前述亚马逊云科技员工坦言,很多企业数据资产远没有到位,导致AI落地难以为继,需要从头补课

亚马逊扶持的初创公司Anthropic被称为OpenAI最大的竞争对手。926日,亚马逊宣布,将向Anthropic投资至多40亿美元,获得其少数股权,后者最新估值约300亿美元,回报是Antropic把亚马逊云科技作为主要云提供商、使用亚马逊云科技自研AI芯片进行大模型训练。

Anthropic核心成员早由一批从OpenAI出走的员工组成,后者也是OpenAI大语言模型GPT-2GPT-3的核心研发人员,由于与OpenAI管理层出现意见分歧而离职创业。产品上,Anthropic推出对标ChatGPT的聊天产品Claude。在公开场合中,Anthropic也不断强化打造更安全AI产品的理念,与OpenAI形成差异化。

安全亦是亚马逊云科技在re:Invent中多次强调的概念,尽管市面上许多AI应用功能已十分强大,但这些应用不懂具体的公司、员工,在工作场景下并不可用。此外,这些产品的发布也欠缺数据隐私、安全上的能力,导致许多CIO(首席信息官)在公司内部禁用了这些聊天助手。我们开发生成式AI应用从一开始就考虑这些问题。亚马逊云科技 CEO Adam Selipsky称,亚马逊云科技不会使用客户数据来训练AI模型,Amazon Q也不会跨越员工不同数据权限间的防火墙。

他还不点名”提及最大竞争对手微软。你不会希望看到云供应商受制于一家模型提供商,而是需要一个真正的选择……过去10天发生的事件已经非常清楚地表明了这一点。他口中的事件指的是OpenAI11月经历的一场戏剧性人事动荡,一度令公司CEO等管理层成员出局,并陷入公众对其AI安全能力质疑。

不过,另一大对手谷歌亦是Anthropic的投资方,与亚马逊相比,谷歌在AI芯片、企业服务、云产品等已基本对齐,大模型上布局更广,内部主攻AI的部门是DeepMind,今年3月上线ChatGPT竞品Bard,与Anthropic也有竞争关系。AI初创生态上,谷歌还参与投资AI初创公司Hugging FaceAI21 LabsCharacter.AIAI视频生成公司RunwayAI文生图公司Midjourney等。

亚马逊云科技全球销售、市场和服务高级副总裁Matt Garman对此告诉界面新闻,从安全、数据隐私、选择性和性价比能力支持企业发展生成式AI。他称,安全和数据隐私是亚马逊云科技的优先考量,这样客户可以在可信赖环境中运行模型;此外,通过Amazon Bedrock为客户提供尽可能多的模型选择,如AnthropicCohereMetaStability AI等等,以及亚马逊自研模型Amazon Titan等;

最后,我们自研芯片,也与英伟达合作,为客户提供更多选择,让他们能够以最佳性价比、使用最合适的芯片运行不同的工作负载。他说。言外之意,芯片是亚马逊云科技的“底牌”之一。

芯片是底牌

2016年,谷歌专门为机器学习打造了TPU(张量处理器),专门针对AI计算做优化,曾应用于击败中国棋手柯洁的AlphaGo上。随后TPU成为谷歌自研AI芯片名片,今年12月,谷歌发布新款的TPU v5p,是谷歌性能最强的AI芯片,配置HBM高带宽显存,部署在谷歌云平台中,强化大模型训练性能,以服务的形式售卖。

对于谷歌TPU的性能表现,外界长期抱有巨大兴趣,但TPU不对外出货,只能从谷歌发布的研究论文和Benchmark(性能评估)来了解。从整个数据中心市场来看,TPU代表了云厂商自研AI芯片的最高水准,并训练出了BertGemini等性能先进的AI大模型,在性能上并不弱于OpenAIGPT系列模型。谷歌开发TPU的成绩激励了一众有自研芯片冲动的云服务商。

实际上,亚马逊的自研芯片之路并不比谷歌晚。2015年,亚马逊云科技收购芯片公司Annapurna Labs,目的就是为了设计定制化芯片,来支持不同的云服务需求。201811月,亚马逊云科技发布了云实例A1,由基于Arm架构的自研Graviton处理器支持,面向对成本更敏感的通用型任务,用来替代英特尔的服务器处理器。201912月,亚马逊发布第二代Arm服务器芯片Graviton2,性能提升7倍,可应付更多、更复杂的工作类型。

目前,云端CPU绝大部分都是英特尔x86架构处理器,技术和市场的成熟造就了x86当前绝对优势。不过,x86服务器芯片诞生于客户端/服务器(Client/Server)架构,并非完全根据云上负载设计。因此,在云计算场景下,不能满足一些专业场景的专业需求。此外,x86服务器同时也存在能耗问题。

这就为Arm架构芯片提供机会,Arm架构的商业模式也使得云厂商有更高的设计自主性。 不过Arm在服务器领域目前仍处于早期阶段,份额低,软件生态也不完善,但基于Arm架构的服务器芯片通常具有体积小、能效比强,发热量低,且价格相对低廉的特点。数据中心是能耗、占地大户。有云厂商分析认为,Arm服务器多核心的特点尤其适合电商里常见的一些并发场景,比如图片、视频等的压缩和解密。

据悉,目前亚马逊云科技上TOP100Amazon EC2(亚马逊云服务器,也被称为实例,是亚马逊云科技最早也最经典的云产品)客户都是Graviton的客户。

AI计算领域,今年4月,亚马逊云科技发布了基于自研的AI训练芯片Trainium和推理芯片Inferentia2的云实例。亚马逊云科技称采用了Trainium的实例将大模型训练成本降低了50%,最多可以将30000Trainium芯片连接起来提供超过6 exaflops的算力集群,连接带宽可高达1600Gbps;推理方面,亚马逊云科技称Inferentia2针对大模型推理进行优化,将推理的性价比提高了40%

亚马逊云科技在本次re:Invent期间更新了AI训练芯片Trainium2,适用于图像分类、自然语言处理、机器翻译、推荐系统、生成式模型等。亚马逊云科技称,Trainium2相较于第一代速度提升至4倍,能够部署在多达10万个芯片的计算集群中,大幅降低了训练模型的时间,同时提高至2倍的能效表现。随着Trainium2的发布,亚马逊云科技在面对生成式AI的算力需求有了更充足的底气。

机器学习一般分为两个阶段,首先导入大量数据,对模型进行训练(training),整个过程可能耗时数天、数周甚至数月;之后是训练出的模型在实际场景中作出推理(inference)。不同阶段,对应的芯片负载需求会有所不同。

AI的部署也是一个多元化的问题,绝大多数公司不会百分之百地依赖某一种芯片产品,而是会青睐混合模式。亚马逊云科技计算和网络副总裁David Brown提到,当AI负载用于训练时,客户可能会选择英伟达的芯片,但选择总会随着时间变化而发生改变,客户总希望尝试不同的新方案,最终永远不会有一个真正获胜的玩家,市场总会有英伟达GPUTrainium、或者市场上的其他芯片选择。

算力芯片之外,亚马逊云科技还推出Nitro,定义其为虚拟化芯片,至今更新到第五代,功能类似于英伟达近年力推的DPU,主要用来提供网络、安全等功能,提升算力使用效率。

对于AI能否迅速驱动新一轮行业变化,云厂商已有初步共识,并积极行动。市场竞争环境则在发生变化,云计算领域正转向由AI驱动,基于AI驱动的云业务成为新增长点。

微软寄希望于AI实现云业务对亚马逊云科技的追赶,凭借与OpenAI绑定合作,微软在消费者、企业产品中积极部署OpenAI模型,吸引客户使用。10月,微软CEO纳德拉在三季度财报会上称,目前有超过1.8万个组织通过Azure使用OpenAI模型服务,其中很多是Azure的新客户;作为对比,7月底这一客户规模为1.1万个。微软首席财务官Amy Hood透露,AI服务为Azure贡献3个百分点的增长。

另一大巨头谷歌亦加紧动作,re:Invent结束后仅一周,谷歌随即发布多模态大模型Gemini(双子座)和AI芯片TPU v5p,展示AI实力,试图在技术和市场声量上,追上微软/OpenAI组合。

几乎所有公司现在都认识到了生成式AI的变革性,这对亚马逊云科技来说也是另一个巨大的机会。12月初接受CNBC采访时,亚马逊CEO安迪·贾西(Andy Jassy)称,他强调,在基于生成式AI的市场上,亚马逊云科技未来将存在上百亿美元的收入机会。但对于外界关心的AI上投入如何反哺至业绩的问题,安迪·贾西就表示,生成式AI还在早期阶段,几乎所有公司仍在探索如何应用。

对亚马逊云科技而言,AI驱动的云计算时代还处于早期阶段,这家云巨头目前还没有犯错,它仍有耐心陪对手长跑。亚马逊云科技在2006年开始布局云计算市场,反映在市场份额和利润上的优势已是很长一段之后。但亚马逊云科技也证明了,先期的远见以及坚定的战略执行,是足以让一家巨头持续蓬勃发展,以此标准来看,微软、谷歌都是强有力的竞争对手,三巨头在云端的AI大战,仍有得打。

未经正式授权严禁转载本文,侵权必究。