生成式AI模型转向？微软开始尝试“以小博大”|界面新闻

界面新闻记者 | 李京亚

当人们开始质疑能耗和资金投入过大的大模型竞逐是否道路正确时，微软用27亿参数的小模型指明了一些新方向。

近日，微软研究院在X上公布了其开源小尺寸模型Phi-2的一些技术细节，凭借在各类复杂基准测试之上展现的出色能力，这款小模型迅速在业界引发反响。

Phi-2的输入和输出都只能采取文本形式，经过基准测试评估，仅用27亿参数就在主要性能上超越Llama2（Meta最新开源的语言大模型）家族中一些小模型如LIama2 7B、Llama2 13B等，并与谷歌新释出的端侧模型Google Gemini Nano 2不相上下。

评测结果还显示，Phi-2与经典的Llama-2-70B模型（开源社区最为核心和衍生模型最多的大语言模型LLM）相比，整体差距也不太大，在多步推理任务如编码和数学方面，性能还比后者更好，而Llama-2-70B的体量是Phi-2的25倍。

据微软所述，Phi-2的设计目标是通过模仿较大模型的推理过程来克服较小模型的局限，具体做法上以预测下一个单词为目标，在1.4万亿个词库上进行训练，训练过程中使用了96块A100 GPU，耗时14天完成。

据微软研发团队解释，Phi-2效果之所以好，是因为使用了比较优质的合成数据以及大语言模型LLM提示工程技巧。

据悉，这款模型在毒性和偏见方面的表现超越了其他开源模型，可以在笔记本和手机上运行。有毒性主要是大模型产生的攻击性、有害内容，偏见则会导致大语言模型在性能和社会文化上产生危害。目前，微软已经在Azure AI Studio模型目录中提供了Phi-2。

值得注意的是，除使用研究界惯常的测试方法之外，Phi-2还展示了在真实使用场景中的能力。

微软大胆地将自家小模型与谷歌的最强多模态大模型Gemini Ultra进行对比，结果Phi-2在解决物理问题和纠正学生错误方面表现不逊于Gemini Ultra，展示出超越常规测试之外的综合能力。

对于一个用于测试模型解决物理问题的能力的prompt（最近用于评估 Gemini Ultra 模型），Phi-2给出了如上结果图源：微软研究院

Gemini Ultra的参数规模据推测大于3400亿，而Phi-2只有27亿。这充分说明，微软的小语言模型不仅能在核心的推理和理解能力上与大其5倍、10倍的模型相当，还能展现出前沿超大语言模型的些许特性。

一般而言，小语言模型是指参数量低于130亿的模型，大语言模型是指千亿参数规数的模型。在极少公司才能拿到必要资源训练大模型的当下，微软试图用微型模型研究为这一领域树立新的范式。

特别是在近期，微软逐步显露出对小语言模型的偏好。

事实上，Phi-2是微软 “小语言模型（SLM）” 系列中的最新版本，其首个版本是13亿参数的Phi-1。就在11月，CEO纳德拉领导的微软研究部门还发布了另一对小型语言模型Orca 2，也能做到在完成复杂推理任务时，可以与5到10倍大的语言模型（包括Meta的Llama-2 Chat-70B）相媲美。

在推广小模型方面，微软还计划开发一种名为“Tiny”的新模型系列，这些模型优化之后，能够在资源有限的设备上运行。此外，微软也会通过Azure OpenAI服务提供更多小模型，供开发者使用。

随着Phi-2的发布，微软将继续推动在小型基础语言模型方面的研究和发展。但需要指出的是，Phi-2目前有一大局限：只被许可用于“研究目的”，而不能商用。

界面新闻记者 | 李京亚

当人们开始质疑能耗和资金投入过大的大模型竞逐是否道路正确时，微软用27亿参数的小模型指明了一些新方向。

据微软研发团队解释，Phi-2效果之所以好，是因为使用了比较优质的合成数据以及大语言模型LLM提示工程技巧。

值得注意的是，除使用研究界惯常的测试方法之外，Phi-2还展示了在真实使用场景中的能力。

特别是在近期，微软逐步显露出对小语言模型的偏好。

历史搜索全部删除

热门搜索

生成式AI模型转向？微软开始尝试“以小博大”

微软

评论

生成式AI模型转向？微软开始尝试“以小博大”