秒杀GPT-4，狙杀GPT-5，横空出世的Claude 3是什么来头？|界面新闻

文｜新火种小岩

编辑｜彩云

2024年第一季度才刚过半，AI领域就大动作不断，大家卯着劲的出新品，可谓卷出天际。

3月4日，Anthropic发布了最新的Claude 3系列模型，用Anthropic的话说，Claude 3的出现意味着打开了一个全新的世界，其系列模型在推理，数学，编码，多语言理解和视觉方面，都树立了全新的行业新基准。

也正是因为Claude 3的出现，全球最强AI模型一夜易主，曾经被认为不可一世的GPT-4被拉下神坛，Claude 3很可能对GPT-4实现全方位的碾压。

Anthropic发布3个模型，全方位实现Claude 3的超强性能。

据悉，本次Anthropic共发布了三个模型，按照性能从低到高，分别是Claude 3 Haiku，Claude 3 Sonnet，以及Claude 3 Opus，并发布了一份长达42页的技术报告。

值得一提的是，此次3个模型的命名是很有讲究的。依照功能的从低到高，它名字的翻译分别是绯句（Haiku），代表性价比之王；十四行诗（Sonnet），代表响应较快，是性能加强版；以及巨作（Opus），堪称性能顶配。

由此可见，Claude 3 Opus在本系列中性能最强大。该模型已在多项AI系统常用评估标准中领先业界LLM，如本科级别专业知识（MMLU），研究生级别专家推理（GPQA），基础数学（GSM8K）等。特别需要说明的是，Claude 3 Opus在处理复杂任务时，其理解和表达能力几乎接近于人类，这意味着人类在AI领域又迈进了一大步。

通过将Claude 3系列模型与同类产品进行对比，我们可以看到，Claude 3 Opus模型性能完全能够碾压GPT-4，以及Gemini 1.0 Ultra；Claude 3 Sonnet在部分基准上，诸如GSM8K，MATH等方面超越了GPT-4；Claude 3 Haiku也可以与Gemini 1.0 Pro相抗衡。

拥有三大核心优势傍身，Claude 3前途无量。

总结Claude 3所具有的优势，主要有以下三点：

性能无短板，擅长长文本优化，显著降低拒绝率。

先来说说性能方面。Claude 3的大语言模型全面赶超了GPT-4，多模态视觉任务处理性能力优秀，在回答复杂开放性问题时的准确率也翻倍提升。特别是当用户直接上传数学，物理这一类考验逻辑和准确度的理科题照片，或者细节丰富的图表时，Claude 3所回复的解题水平和准确率相较于先前版本提高了很多，甚至在一些细节描述上比GPT- 4更胜一筹。在多模态能力方面，Claude 3模型可以从视觉上识别物体，能用复杂的方式思考，既能理解物体的外观，也能理解它与数学等概念的联系。

Anthropic AI研究工程师Emmanuel Ameisen就晒出了一个测试示例：向Opus输入2小时13分钟视频原始文本，每隔5秒截取的屏幕截图等图文素材，它就能成功将其转换成一篇图文并茂的HTML格式博客文章。

在文本优化方面，Claude 3也交出了一份令人满意的答卷。要知道，先前的Claude 2.1版本常被吐槽长文本理解效果差，Claude 3便在这个方面做了重点改进，顶配Opus在200K tokens NIAH测试中准确率超过99%，展现了强大的召回能力（1K tokens相当于750个单词）。

此外，Claude 3还显著减少了拒绝回答问题的频率。很多大语言模型会频繁拒绝回答询问，Claude 3则显著改进了这一点，它能够更明确的辨别真正的风险问题，减少无故拒绝回答安全询问的情况。

“OpenAI叛军”完美制衡住了GPT-4，未来的AI王者将鹿死谁手？

Anthropic用一记绝杀将GPT-4拉下了神坛，很多人觉得这是AI新秀的一次胜利。但如果你了解过Anthropic与OpenAI之间潜藏的错综复杂的关系的话，就会发现此次Claude 3的胜利，并非偶然。

Anthropic究竟是谁？有消息来源表示，Anthropic其实就是原OpenAI员工组建的公司，这些员工因为某些发展理念不合直接出走，并选择“反叛”，最终成为了OpenAI的最强劲敌。

2021年，多名OpenAI员工不满OpenAI在获得微软投资后走向封闭，愤而出走并联合创立了Anthropic。他们对OpenAI在安全问题尚未解决的情况下就直接发布GPT-3的行为感到不满，认为OpenAI已经为追逐利益而“遗忘了初心”。

这一干出走的员工之中就包括打造出GPT-2和GPT-3的研究部门副总裁Dario Amodei。他在2016年进入OpenAI，离开前担任研究副总裁，这绝对是OpenAI的核心位置。离开时，Dario还带走了GPT-3首席工程师Tom Brown，以及担任安全与策略部门副总监的妹妹Daniela Amodei以及10多名心腹，可谓人才多多。这些人才，也最终成为了Anthropic的中流砥柱。

2023年1月，Claude开启内测，彼时很多网友在第一时间体验了Claude，并表示它比当时的GPT-3强太多。

除了拥有诸多人才，Anthropic如今也获得了强大的资本为其背书，截至目前，它已经获得了包括谷歌，亚马逊云科技在内的26个机构或个人的融资，总计融资金额达到了76亿美元。

毫无疑问的是，如今Anthropic的飞速发展和进步令业界十分振奋。这个仅诞生3年的大模型初创公司，不是手握顶级人才，更拥有了钞能力和雄厚的计算资源。这说明OpenAI在大模型技术上的领先身位并非遥不可及。坐拥Top级创始成员和精兵强将的创业团队，完全有能力做出与OpenAI风庭抗礼的产品，所消耗的人力，财力，算力资源却只会更少。

Claude 3的横空出世和巨大成功会给我们带来一些启发：或许，我们也是有机会和能力来做出超越GPT-4的产品的。

如果单论规模，Anthropic显然不及OpenAI，但它依旧取得了巨大的成功。每每提起AI赛道，我们总会认为这个赛道就是要无止尽的烧钱，卷人才，卷技术。不过，相较于耗费了多大的成本去卷，怎么卷，朝哪个方向卷显然是更重要的事情。毕竟，在AI领域，选择永远大于努力。

或许在不久的未来，OpenAI还会推出令人惊艳的GPT-5,但至少就目前而言，GPT不可战胜的神话已经破灭了。