DeepSeek大爆后,又一中国模型实现了对OpenAI的赶超。
4日凌晨,三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单,包括阿里云在内的多家中国公司旗下大模型性能跻身前列。
其中,一周前阿里云通义团队刚发布的Qwen2.5-Max超越DeepSeek V3、OpenAI o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理类的中国大模型冠军。同时,Qwen2.5-Max在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。
中国大模型正迎头赶上
据悉,Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型。该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对模型能力进行投票。
因此,Chatbot Arena LLM Leaderboard成为业界公认的最公正、最权威榜单之一,也是全球顶级大模型的最重要竞技场。
ChatBot Arena官方评价称,Qwen2.5-Max在多个领域表现强劲,特别是专业技术向的,例如编程、数学、硬提示等。
行业媒体《信息平权》此前就表示,若阿里Qwen-2.5-max这次的确性能超过V3,可以对其RL推理模型给予更大期待。
事实上,在乙巳蛇年的春节假期里,中国大模型既有DeepSeek在海外市场走红的突出表现,也有阿里云在模型性能方面的突破创新。有市场分析观点表示,此前过度聚焦DeepSeek,却忽视了包括阿里通义在内的中国AI整体性追赶。
Qwen2.5-Max发布后,立刻在海内外大模型社区引发热议,ChatBot Arena官方也发推文称,以Qwen2.5-Max为代表的中国大模型正在迎头赶上,还有从业者在惊叹新模型强大性能的同时,也兴奋地表示:“我们可以告别ChatGPT了!”
平安证券指出,国产大模型持续迭代升级,应用落地步伐有望加速。近期,国产大模型产品密集更新和迭代升级,中国算法能力及模型效果逐渐接近和赶超国际主流产品,国产大模型应用落地步伐有望加速。
2024年大模型的推理能力持续增强、应用场景在不断拓宽。在2025年,中信证券研究院预计,随着AI能力的持续提升,AI生态丰富度有望进一步拓宽,AI入口将成为科技巨头的必争之地,而随着模型性能的持续提升以及应用场景的不断扩宽,AI产业在应用端将加速落地。
中美科技股价值或重估
当中国模型集体崛起,对硅谷公司迎头赶上,这也会在资本市场引发连锁反应。
2月3日的港股市场上,人工智能和半导体成为“最靓的仔”,其中大数据概念涨幅超15%,半导体概念、云计算涨超4%。
如果看阿里云发布Qwen2.5-Max到上述盲测榜单出炉这段时间的表现,截至2月4日港股收盘,阿里巴巴在港股市场上涨近12%。
市场人士称,以阿里云等公司为代表,中国AI阵营在高性能、低成本技术路线上具有独特优势,若阿里Qwen-2.5-max的性能确实展现出预期水平,加之其低成本优势与完整云生态,或引发DeepSeek之后的中国AI资产新一轮重估。
华泰证券策略研究近日发布报告也提到,中美科技股估值在过去两年分化显著,AI发展水平或是关键。DeepSeek具有低成本、高性能优势,引发行业对资本开支、应用场景等讨论,或推动投资者重新评估中国科技企业的技术潜力,进而催化中美科技股价值重估。
中信证券研究院认为,2025年有望成为A股市场主题投资大年,主题赛道是市场普遍关注的焦点,多个因素将共同推动2025年全年A股市场的主题投资机遇。其中之一便是,在AI等新技术成熟和新商业模式清晰催化下,更多新兴产业有望步入高速成长期。
海通证券策略首席分析师吴信坤预计,2025年资本市场必然重视硬科技。在当前中国新旧动能转换背景下,科技板块顺应发展新质生产力的指引,同时产业周期仍处于向上通道,基本面趋势更好、确定性更强。
评论