大模型创业潮来临，智源研究院发布FlagOpen大模型技术开源体系|界面新闻

界面新闻记者 | 姜菁玲

公众对ChatGPT的关注充分点燃了人工智能行业对大模型的热情。

两个月来，百度宣布加码“文心一言”，原美团联合创始人王慧文亲自组建大模型创业团队，出门问问创始人李志飞宣布将全力投入大模型创业。一时间，“大模型创业”成为人工智能圈的热词。

“ChatGPT的火爆就像一盏灯点亮了街区，吸引了许多人的目光。但要让这灯进入千家万户，我们还需要关注背后发电机以及电网，也就是大模型和相关技术生态。”智源研究院院长黄铁军在接受媒体采访时表示。

智源研究院成立于2018年，是一家人工智能领域的非盈利性研发机构，在科技部和北京市委市政府的指导和支持下，由北京市科委和海淀区政府推动成立。智源研究院希望搭建一个高效有活力的AI研发平台，致力于人工智能领域发展政策、学术思想、理论基础、顶尖人才与产业生态的五大源头创新。

在大模型领域，智源是国内最早进行大模型研究的科研机构之一，曾经推出全球最大的超大规模智能模型“悟道2.0”。

大模型通过同一模型完成多场景任务，成为支撑无数智能应用的基础平台，使得人工智能技术的大规模应用变为可能，加速了智能时代的真正到来。而一个大模型背后需要大数据、大算力以及强算法作为支持，训练大模型往往成本高昂且对技术要求极高。

为了帮助进一步降低大模型开发和研究门槛，2月28日，智源研究院对外发布与多家企业、高校和科研机构共建的大模型技术开源体系FlagOpen （飞智），包括大模型算法、模型、数据、工具、评测等重要组成部分，旨在建设大模型领域的“Linux”。

FlagOpen配套了六个模块，分别是FlagAI、FlagPerf、FlagEval、FlagData、FlagStudio和FlagBoot：

FlageAI集成了很多主流大模型算法技术，以及多种大模型并行处理和训练加速技术，并支持微调。

FlagPerf搭建的AI硬件评测体系，支持多种深度学习框架，可及时跟进最新主流模型评测需求，便于AI芯片厂商插入底层支撑工具，且不以排名为核心目标。

FlagEval是覆盖多个模态领域、包含评测维度的评测工具，首先开放的是近期很火的多模态领域-CLIP系列模型评测工具，支持多语言多任务、开箱即用。

FlagData数据工具开源项目集成包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法。此前，智源研究院已经构建了WuDaoCorpora语料库。

FlagStudio是文生图、文生音乐等艺术创作相关的开源项目集合，集合的算法和模型更贴合中文场景，当前主要提供智源研究院文生图相关能力的应用。

FlagBoot是基于Scala开发的轻量级高并发微服务框架，默认完全异步，且没有宏、隐式转换等晦涩难懂的代码。极少的代码量便于开发者轻易了解背后逻辑，而后进行自定义修改。

基于FlagOpen，国内外开发者可以快速开启各种大模型的尝试、开发和研究工作，企业可以低门槛进行大模型研发。同时，FlagOpen大模型技术开源体系正逐步实现对多种深度学习框架、多种AI芯片的完整支持，支撑AI大模型软硬件生态的百花齐放。未来，FlagOpen也将支撑全球AI企业、机构基于FlagOpen构建AI大模型软件发行版本、平台、商业软件等。

黄铁军告诉界面新闻记者，企业选择开源项目的驱动力并不是开源带来的成本降低，而是问题与风险的降低。“成功的开源项目由许多方共同维护，不会因为单一企业的问题导致整个开源软件出现问题。同时，由于维护方众多，开源软件所出现的问题往往比闭源软件更快被发现和解决。”

黄铁军还提到，当前深度学习阶段的人工智能系统具有难以透彻理解的技术特性，智能时代不应封闭、必须开放、最好开源，特别是作为基础平台的大模型需要全面开源、接受监督，才能得到信任、采纳和广泛应用。

智源在大模型领域深耕多年。黄铁军称，选择现在公布FlagOpen开源体系的另一个原因，也是因为大模型的火爆驱使下，许多没有接触过大模型的初创团队开始尝试自己训练模型。“既然有这么多人想做这件事，我们在这个时候开源出来，是想给予我们的经验，让他们更加顺利往前走。”

“但大模型创业需要想清楚到底要做什么，终究还是要落到产品。”黄铁军强调，目前创业的火热一方面是好事，体现出（做大模型）这件事的重要性，但另一方面需要警惕在没想清楚的情况下就盲目投入，可能会带来算力等重复性的资源浪费，产生泡沫问题。