正在阅读:

生成式AI模型转向?微软开始尝试“以小博大”

扫一扫下载界面新闻APP

生成式AI模型转向?微软开始尝试“以小博大”

微软用27亿参数为130亿参数以下的小模型树立了新标杆。

图:匡达

界面新闻记者 | 李京亚

当人们开始质疑能耗和资金投入过大的大模型竞逐是否道路正确时,微软用27亿参数的小模型指明了一些新方向。

近日,微软研究院在X上公布了其开源小尺寸模型Phi-2的一些技术细节,凭借在各类复杂基准测试之上展现的出色能力,这款小模型迅速在业界引发反响。

Phi-2的输入和输出都只能采取文本形式,经过基准测试评估,仅用27亿参数就在主要性能上超越Llama2(Meta最新开源的语言大模型)家族中一些小模型如LIama2 7BLlama2 13B等,并与谷歌新释出的端侧模型Google Gemini Nano 2不相上下。

图源:微软研究院

评测结果还显示,Phi-2与经典的Llama-2-70B模型(开源社区最为核心和衍生模型最多的大语言模型LLM)相比,整体差距也不太大,在多步推理任务如编码和数学方面,性能还比后者更好,Llama-2-70B的体量是Phi-225倍。

据微软所述,Phi-2的设计目标是通过模仿较大模型的推理过程来克服较小模型的局限,具体做法上以预测下一个单词为目标,在1.4万亿个词库上进行训练,训练过程中使用了96A100 GPU,耗时14天完成。

据微软研发团队解释,Phi-2效果之所以好,是因为使用了比较优质的合成数据以及大语言模型LLM提示工程技巧。

据悉,这款模型在毒性和偏见方面的表现超越了其他开源模型,可以在笔记本和手机上运行。有毒性主要是大模型产生的攻击性、有害内容,偏见则会导致大语言模型在性能和社会文化上产生危害。目前,微软已经在Azure AI Studio模型目录中提供了Phi-2

值得注意的是,除使用研究界惯常的测试方法之外,Phi-2还展示了在真实使用场景中的能力。

微软大胆地将自家小模型与谷歌的最强多模态大模型Gemini Ultra进行对比,结果Phi-2在解决物理问题和纠正学生错误方面表现不逊于Gemini Ultra,展示出超越常规测试之外的综合能力。

对于一个用于测试模型解决物理问题的能力的prompt(最近用于评估 Gemini Ultra 模型),Phi-2给出了如上结果 图源:微软研究院

Gemini Ultra的参数规模据推测大于3400亿,而Phi-2只有27亿。这充分说明,微软的小语言模型不仅能在核心的推理和理解能力上与大其5倍、10倍的模型相当,还能展现出前沿超大语言模型的些许特性。

一般而言,小语言模型是指参数量低于130亿的模型,大语言模型是指千亿参数规数的模型。在极少公司才能拿到必要资源训练大模型的当下,微软试图用微型模型研究为这一领域树立新的范式。

特别是在近期,微软逐步显露出对小语言模型的偏好。

事实上,Phi-2是微软小语言模型(SLM系列中的最新版本,其首个版本是13亿参数的Phi-1。就在11月,CEO纳德拉领导的微软研究部门还发布了另一对小型语言模型Orca 2,也能做到在完成复杂推理任务时,可以与510倍大的语言模型(包括MetaLlama-2 Chat-70B)相媲美。

在推广小模型方面,微软还计划开发一种名为“Tiny”的新模型系列,这些模型优化之后,能够在资源有限的设备上运行。此外,微软也会通过Azure OpenAI服务提供更多小模型,供开发者使用。

随着Phi-2的发布,微软将继续推动在小型基础语言模型方面的研究和发展。但需要指出的是,Phi-2目前有一大局限:只被许可用于研究目的,而不能商用。

未经正式授权严禁转载本文,侵权必究。

微软

4.8k
  • 谷歌、微软财报亮眼,盘后股价飙升11%和4%,低费率的纳指100ETF(159660)大涨近2%,连续6日吸金!
  • 重磅数据出炉,标普500ETF(513500)规模超123亿元,微软业绩超预期,股价盘后一度涨近6%

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

生成式AI模型转向?微软开始尝试“以小博大”

微软用27亿参数为130亿参数以下的小模型树立了新标杆。

图:匡达

界面新闻记者 | 李京亚

当人们开始质疑能耗和资金投入过大的大模型竞逐是否道路正确时,微软用27亿参数的小模型指明了一些新方向。

近日,微软研究院在X上公布了其开源小尺寸模型Phi-2的一些技术细节,凭借在各类复杂基准测试之上展现的出色能力,这款小模型迅速在业界引发反响。

Phi-2的输入和输出都只能采取文本形式,经过基准测试评估,仅用27亿参数就在主要性能上超越Llama2(Meta最新开源的语言大模型)家族中一些小模型如LIama2 7BLlama2 13B等,并与谷歌新释出的端侧模型Google Gemini Nano 2不相上下。

图源:微软研究院

评测结果还显示,Phi-2与经典的Llama-2-70B模型(开源社区最为核心和衍生模型最多的大语言模型LLM)相比,整体差距也不太大,在多步推理任务如编码和数学方面,性能还比后者更好,Llama-2-70B的体量是Phi-225倍。

据微软所述,Phi-2的设计目标是通过模仿较大模型的推理过程来克服较小模型的局限,具体做法上以预测下一个单词为目标,在1.4万亿个词库上进行训练,训练过程中使用了96A100 GPU,耗时14天完成。

据微软研发团队解释,Phi-2效果之所以好,是因为使用了比较优质的合成数据以及大语言模型LLM提示工程技巧。

据悉,这款模型在毒性和偏见方面的表现超越了其他开源模型,可以在笔记本和手机上运行。有毒性主要是大模型产生的攻击性、有害内容,偏见则会导致大语言模型在性能和社会文化上产生危害。目前,微软已经在Azure AI Studio模型目录中提供了Phi-2

值得注意的是,除使用研究界惯常的测试方法之外,Phi-2还展示了在真实使用场景中的能力。

微软大胆地将自家小模型与谷歌的最强多模态大模型Gemini Ultra进行对比,结果Phi-2在解决物理问题和纠正学生错误方面表现不逊于Gemini Ultra,展示出超越常规测试之外的综合能力。

对于一个用于测试模型解决物理问题的能力的prompt(最近用于评估 Gemini Ultra 模型),Phi-2给出了如上结果 图源:微软研究院

Gemini Ultra的参数规模据推测大于3400亿,而Phi-2只有27亿。这充分说明,微软的小语言模型不仅能在核心的推理和理解能力上与大其5倍、10倍的模型相当,还能展现出前沿超大语言模型的些许特性。

一般而言,小语言模型是指参数量低于130亿的模型,大语言模型是指千亿参数规数的模型。在极少公司才能拿到必要资源训练大模型的当下,微软试图用微型模型研究为这一领域树立新的范式。

特别是在近期,微软逐步显露出对小语言模型的偏好。

事实上,Phi-2是微软小语言模型(SLM系列中的最新版本,其首个版本是13亿参数的Phi-1。就在11月,CEO纳德拉领导的微软研究部门还发布了另一对小型语言模型Orca 2,也能做到在完成复杂推理任务时,可以与510倍大的语言模型(包括MetaLlama-2 Chat-70B)相媲美。

在推广小模型方面,微软还计划开发一种名为“Tiny”的新模型系列,这些模型优化之后,能够在资源有限的设备上运行。此外,微软也会通过Azure OpenAI服务提供更多小模型,供开发者使用。

随着Phi-2的发布,微软将继续推动在小型基础语言模型方面的研究和发展。但需要指出的是,Phi-2目前有一大局限:只被许可用于研究目的,而不能商用。

未经正式授权严禁转载本文,侵权必究。