生数科技完成新一轮融资，国内多模态大模型厂商着力追赶Sora|界面新闻

界面新闻记者 | 于浩
界面新闻编辑 | 文姝琪

3月12日消息，北京生数科技有限公司（以下简称“生数科技”）宣布完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮由华兴资本担任独家财务顾问。

公开资料显示，生数科技成立于2023年3月，主要业务集中在图像、3D、视频等原生多模态大模型的研发。据介绍，本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

今年年初，OpenAI发布文生视频产品Sora，以超长生成时长与高质量视频引发广泛关注。启明创投合伙人周志峰曾预测，随着Scaling Law在视频生成领域的进一步加强，多模态技术将引领一系列令人瞩目的创新。而着眼于国内多模态大模型赛道，生数科技、爱诗科技等企业已成为国产Sora的有力竞争者。

近期发布的多模态模型中，无论是Sorad还是Stable Diffusion 3，均采用了Diffusion Transformer架构（DiT），即在Diffusion Model（扩散模型）中，用Transformer替换常用的U-Net，将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合，从而在视觉任务下展现出卓越的涌现能力。

目前来看，Diffusion Transformer架构（DiT）是经过验证、初步得到业内共识的技术路线。生数科技CEO唐家渝表示，目前业内的技术路线已经趋于收敛。此前爱诗科技CEO王长虎也曾表示，Sora的出现验证了以Diffusion+Transformer为基础的视频生成大模型能够实现更优的表现，也坚定了爱诗科技未来的发力方向。

追本溯源来看，DiT架构由伯克利团队于2022年12月发表。但其实早在2022年9月，生数科技创始成员就提出了基于Transformer的网络架构U-ViT，两项工作在架构思路与实验路径上完全一致，均是将Transformer与扩散模型融合。

2023年3月，生数科技曾开源了多模态扩散大模型UniDiffuser，在参数量和训练数据规模上与Stable Diffusion直接对齐。除了单向的文生图以外，Unidiffuser也支持更通用的图文任务，能够实现图生文、图文联合生成、图文改写等多种功能。当时模型架构便是基于Diffusion Transformer架构（U-ViT）。

尽管对扩散模型融合架构已有研究基础，但唐家渝坦言，目前与Sora相比还是存在一定差距。如生数科技、爱诗科技也都设立了追赶Sora的目标。

唐家渝表示，拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验之后，追赶Sora肯定比追赶GPT-4轻松很多，预计今年可以达到Sora目前版本的效果。

在爱诗科技最新一轮融资消息中也提及，新融资将主要用于底层视频大模型的技术研发及团队搭建。据王长虎透露，未来将集中人力和资源，在3至6个月内赶超Sora目前水平。

在为行业带来震撼之余，Sora也改变了国内厂商在研发方面的布局。“能力扩展到3D、长视频的最大限制因素其实是资源。”唐家渝表示，在不确定路线时需要投入大量成本进行实验，而OpenAI用大量资源验证路径可行性实际上打消了很多疑虑。

因此，据唐家渝所说，生数科技在内部提升了长视频生成的优先级，针对长视频画面的连贯性等问题展开研发工作，同时也将进一步完善已有的数据清洗、打标体系。

在商业化落地方面，基于其MaaS（模型即服务）能力，生数科技一方面以API的形式向B端机构直接提供模型能力，主要合作客户集中在游戏公司及互联网企业；另一方面选择研发垂类应用产品，按照订阅等形式收费，目前已经上线视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft。

相较于数据资源相对充足的图文、视频领域，3D资产生成相关的数据质量相对较差。针对这一点，唐家渝称目前生数科技内部选择采用2D数据与3D数据联合训练的方案来提升建模效果。

在生数科技此次新融资的资方中，如智谱与百度均在大模型方面有所布局。对此唐家渝回应称，智谱与百度的模型产品均偏向语言模型，更看重理解和逻辑推理能力，与生数科技的多模态能力为互补与合作关系。

界面新闻记者 | 于浩
界面新闻编辑 | 文姝琪

尽管对扩散模型融合架构已有研究基础，但唐家渝坦言，目前与Sora相比还是存在一定差距。如生数科技、爱诗科技也都设立了追赶Sora的目标。

历史搜索全部删除

热门搜索

生数科技完成新一轮融资，国内多模态大模型厂商着力追赶Sora

评论

生数科技完成新一轮融资，国内多模态大模型厂商着力追赶Sora