正在阅读:

王小川旗下大模型正式发布:70亿参数量,北大清华已用 | 把脉AI大模型

扫一扫下载界面新闻APP

王小川旗下大模型正式发布:70亿参数量,北大清华已用 | 把脉AI大模型

北京大学和清华大学两所顶尖大学已使用baichuan-7B模型推进相关研究工作。

图片来源:视觉中国

界面新闻记者 | 肖芳

6月15日,搜狗创始人王小川的新公司百川智能推出了70亿参数量的中英文预训练大模型——baichuan-7B目前baichuan-7B大模型已在Hugging FaceGithub以及Model Scope平台发布。

在构建预训练语料库方面,百川智能称其大模型以高质量中文语料为基础,同时融合了优质的英文数据。在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的筛选;在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。该公司强调,相较于其他同参数规模的开源中文预训练模型,baichuan-7B数据量提高了超过50%。

百川智能介绍,其在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的水平

通常已有的开源模型窗口长度在2K以内,对于一些长文本建模任务,如需要引入外部知识做搜索增强的场景,更长的处理长度有助于模型在训练与推理阶段捕获更多的上下文信息,2K的处理长度存在比较大的制约。而百川智能称baichuan-7B基于高效的attention算子优化实现了万级别超长动态窗口的扩张能力,本次开源的预训练模型开放了4K上下文窗口,使模型应用场景更加广泛。

此外,baichuan-7B对模型训练流程进行了深度优化,采用了更科学且稳定的训练流程和超参数选择,使得baichuan-7B模型的收敛速度大大提升。

据了解,北京大学和清华大学两所顶尖大学已使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。

今年4月10日,王小川宣布入场大模型创业,和前搜狗COO茹立云联合创立人工智能公司百川智能,旨在开发中国版的OpenAI基础大模型及颠覆性上层应用。据悉公司早前已获得5000万美元启动资金,来自王小川与其业内好友的个人支持。

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

王小川旗下大模型正式发布:70亿参数量,北大清华已用 | 把脉AI大模型

北京大学和清华大学两所顶尖大学已使用baichuan-7B模型推进相关研究工作。

图片来源:视觉中国

界面新闻记者 | 肖芳

6月15日,搜狗创始人王小川的新公司百川智能推出了70亿参数量的中英文预训练大模型——baichuan-7B目前baichuan-7B大模型已在Hugging FaceGithub以及Model Scope平台发布。

在构建预训练语料库方面,百川智能称其大模型以高质量中文语料为基础,同时融合了优质的英文数据。在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的筛选;在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。该公司强调,相较于其他同参数规模的开源中文预训练模型,baichuan-7B数据量提高了超过50%。

百川智能介绍,其在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的水平

通常已有的开源模型窗口长度在2K以内,对于一些长文本建模任务,如需要引入外部知识做搜索增强的场景,更长的处理长度有助于模型在训练与推理阶段捕获更多的上下文信息,2K的处理长度存在比较大的制约。而百川智能称baichuan-7B基于高效的attention算子优化实现了万级别超长动态窗口的扩张能力,本次开源的预训练模型开放了4K上下文窗口,使模型应用场景更加广泛。

此外,baichuan-7B对模型训练流程进行了深度优化,采用了更科学且稳定的训练流程和超参数选择,使得baichuan-7B模型的收敛速度大大提升。

据了解,北京大学和清华大学两所顶尖大学已使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。

今年4月10日,王小川宣布入场大模型创业,和前搜狗COO茹立云联合创立人工智能公司百川智能,旨在开发中国版的OpenAI基础大模型及颠覆性上层应用。据悉公司早前已获得5000万美元启动资金,来自王小川与其业内好友的个人支持。

未经正式授权严禁转载本文,侵权必究。