正在阅读:

腾讯自研混元大模型正式亮相:从零开始训练,重点解决“胡言乱语”问题

扫一扫下载界面新闻APP

腾讯自研混元大模型正式亮相:从零开始训练,重点解决“胡言乱语”问题

混元大模型拥有超千亿参数规模,预训练语料超2万亿tokens。

图片来源:腾讯官方提供

界面新闻记者 崔鹏

97日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式对外亮相,同时宣布通过腾讯云对外开放。

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超2万亿tokens。

汤道生称,混元大模型具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力,在解决大模型常见的“幻觉”问题上取得了明显进步。

未来它将作为腾讯云MaaS服务的底座,客户不仅可以直接通过API调用混元,也可以将混元作为基底模型,开发不同产业场景的应用。

根据腾讯的官方信息,腾讯已经和外部11千家合作方推出了覆盖100多个产业场景的行业解决方案。去年,生态伙伴收入占到腾讯云整体收入的三分之一,收入增速是腾讯云增速的4倍。

而在会后的采访中,腾讯集团副总裁蒋杰对界面新闻等媒体表示,目前混元大模型已经接入腾讯50多个业务,包括腾讯云、腾讯广告、腾讯游戏、腾讯会议、腾讯文档、微信搜一搜和QQ浏览器等业务和产品,同时取得了不错的效果。

全链路自研

2021年开始,腾讯先后推出千亿和万亿参数的NLP稀疏大模型,打破CLUE三大榜单记录,实现在中文理解能力上的新突破。

蒋杰透露称,腾讯混元大模型从第一个token开始就从零开始训练,掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。

他认为,目前业界大模型在场景中的应用依然有限,主要集中在容错率高、任务简单的休闲场景。腾讯在算法层面进行针对性研发,解决大模型目前存在的幻觉问题。

针对大模型容易胡言乱语的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%50%

同时,通过强化学习的方法,让模型学会识别陷阱问题,可以拒绝回答不恰当的用户问题;通过位置编码优化,提高了超长文的处理效果和性能。

此外,腾讯的研发团队还提出了思维链的新策略,能够让大模型能够像人一样结合实际的应用场景进行推理和决策。

蒋杰表示,腾讯的自研机器学习框架Angel让训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。

因此,腾讯混元大模型能够理解上下文的含义,并且有长文记忆能力,可以流畅地进行专业领域的多轮对话。腾讯方面表示,它能进行文学创作、文本摘要、角色扮演等内容创作,做到充分理解用户意图,并高效、准确的给出有时效性的答复。

在发布会上,蒋杰还用中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试结果,来印证混元大模型的能力。

在这项评测中,混元大模型共测评66个能力项,在模型开发模型能力两个重要领域的综合评价均获得了当前的最高分。在主流的评测集MMLUCEvalAGI-eval上,混元大模型均有优异的表现。

腾讯全面拥抱大模型

蒋杰在发布会上说,腾讯研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中,腾讯将全面拥抱大模型。

他也同时展示了腾讯会议、腾讯文档、腾讯广告等多个业务接入腾讯混元大模型后的实际应用情况。

比如腾讯会议基于混元大模型开发的AI小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。

据实测,在指令理解、会中问答、会议摘要、会议待办项等多个方面,混元大模型均获得较高的用户采纳率,相较于GPT3.5有明显的优势。

在文档处理方面,腾讯混元大模型支持数十种文本创作场景,能够一键生成标准格式文本,熟悉上百种Excel公式,支持自然语言生成函数,并基于表格内容生成图表。

腾讯方面表示,这些文档处理功能目前正在内测阶段,将在成熟后面向用户开放。

在广告业务场景,腾讯混元大模型支持智能化的广告素材创作,可以结合行业与地域特色,实现文字、图片、视频的自然融合。

今年6月,腾讯云曾推出模型即服务(MaaS)解决方案,提供涵盖模型预训练、模型精调、智能应用开发等一站式的行业大模型服务。

蒋杰表示,目前腾讯云已经全面接入Llama 2Bloom20多个主流模型,并支持直接部署调用。客户可以根据实际需求,既可以基于混元大模型,也可以基于开源模型,打造自己的行业大模型。

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

腾讯自研混元大模型正式亮相:从零开始训练,重点解决“胡言乱语”问题

混元大模型拥有超千亿参数规模,预训练语料超2万亿tokens。

图片来源:腾讯官方提供

界面新闻记者 崔鹏

97日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式对外亮相,同时宣布通过腾讯云对外开放。

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示,混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超2万亿tokens。

汤道生称,混元大模型具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力,在解决大模型常见的“幻觉”问题上取得了明显进步。

未来它将作为腾讯云MaaS服务的底座,客户不仅可以直接通过API调用混元,也可以将混元作为基底模型,开发不同产业场景的应用。

根据腾讯的官方信息,腾讯已经和外部11千家合作方推出了覆盖100多个产业场景的行业解决方案。去年,生态伙伴收入占到腾讯云整体收入的三分之一,收入增速是腾讯云增速的4倍。

而在会后的采访中,腾讯集团副总裁蒋杰对界面新闻等媒体表示,目前混元大模型已经接入腾讯50多个业务,包括腾讯云、腾讯广告、腾讯游戏、腾讯会议、腾讯文档、微信搜一搜和QQ浏览器等业务和产品,同时取得了不错的效果。

全链路自研

2021年开始,腾讯先后推出千亿和万亿参数的NLP稀疏大模型,打破CLUE三大榜单记录,实现在中文理解能力上的新突破。

蒋杰透露称,腾讯混元大模型从第一个token开始就从零开始训练,掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。

他认为,目前业界大模型在场景中的应用依然有限,主要集中在容错率高、任务简单的休闲场景。腾讯在算法层面进行针对性研发,解决大模型目前存在的幻觉问题。

针对大模型容易胡言乱语的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%50%

同时,通过强化学习的方法,让模型学会识别陷阱问题,可以拒绝回答不恰当的用户问题;通过位置编码优化,提高了超长文的处理效果和性能。

此外,腾讯的研发团队还提出了思维链的新策略,能够让大模型能够像人一样结合实际的应用场景进行推理和决策。

蒋杰表示,腾讯的自研机器学习框架Angel让训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。

因此,腾讯混元大模型能够理解上下文的含义,并且有长文记忆能力,可以流畅地进行专业领域的多轮对话。腾讯方面表示,它能进行文学创作、文本摘要、角色扮演等内容创作,做到充分理解用户意图,并高效、准确的给出有时效性的答复。

在发布会上,蒋杰还用中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试结果,来印证混元大模型的能力。

在这项评测中,混元大模型共测评66个能力项,在模型开发模型能力两个重要领域的综合评价均获得了当前的最高分。在主流的评测集MMLUCEvalAGI-eval上,混元大模型均有优异的表现。

腾讯全面拥抱大模型

蒋杰在发布会上说,腾讯研发大模型的目标不是在评测上获得高分,而是将技术应用到实际场景中,腾讯将全面拥抱大模型。

他也同时展示了腾讯会议、腾讯文档、腾讯广告等多个业务接入腾讯混元大模型后的实际应用情况。

比如腾讯会议基于混元大模型开发的AI小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。

据实测,在指令理解、会中问答、会议摘要、会议待办项等多个方面,混元大模型均获得较高的用户采纳率,相较于GPT3.5有明显的优势。

在文档处理方面,腾讯混元大模型支持数十种文本创作场景,能够一键生成标准格式文本,熟悉上百种Excel公式,支持自然语言生成函数,并基于表格内容生成图表。

腾讯方面表示,这些文档处理功能目前正在内测阶段,将在成熟后面向用户开放。

在广告业务场景,腾讯混元大模型支持智能化的广告素材创作,可以结合行业与地域特色,实现文字、图片、视频的自然融合。

今年6月,腾讯云曾推出模型即服务(MaaS)解决方案,提供涵盖模型预训练、模型精调、智能应用开发等一站式的行业大模型服务。

蒋杰表示,目前腾讯云已经全面接入Llama 2Bloom20多个主流模型,并支持直接部署调用。客户可以根据实际需求,既可以基于混元大模型,也可以基于开源模型,打造自己的行业大模型。

未经正式授权严禁转载本文,侵权必究。