超大规模智能模型“五道2.0”发布的参数规模是GPT-3的10倍


时间:2021-06-01  来源:  作者:  点击次数:


原标题:超大规模智能模型“启蒙2.0”发布参数规模是GPT-3的10倍来源:cnBeta。计算机输出缩微胶片

在1日举行的2021北京致远大会上,北京致远人工智能研究所发布了新版超大规模智能模型“五道2.0”,该模型是在今年3月20日发布的“五道1.0”的基础上进行更新迭代的,具有大规模、高精度、高效率的特点。

“启蒙”模式旨在创造数据和知识驱动的认知智能,使机器能够像人类一样思考,实现“超越图灵测试的机器认知能力”。“五道”团队在大型预训模型的研发方面做了大量的基础工作,形成了独立的超大型智能模型技术创新体系,拥有完整的理论、工具、模型构建和评价链。

“五道2.0”模型的参数规模达到1.75万亿,是GPT-3的10倍,打破了此前Google Switch Transformer预训练模型创下的1.6万亿参数的纪录,是中国第一个万亿级模型,也是世界上最大的。

MoE(混合专家)是Google兆模型的核心技术,与其分布式训练框架和定制的硬件有很强的绑定性。由“启蒙”团队研发的FastMoE是第一个支持PyTorch框架的MoE系统,使用方便、灵活、性能高,支持大规模并行训练。新的FastMoE支持Switch、GShard等复杂的平衡策略,支持不同专家的不同模型,是实现“万亿模型”的关键技术。

“启蒙2.0”模型是在4.9T高质量的中英文海量清洗数据上训练出来的。训练数据包括Pile数据集的1.2TB中文文本数据、2.5TB中文图形数据和1.2TB英文文本数据。

据报道,“启蒙2.0”在国际公认的9项Benchmark测试任务中取得了不错的成绩。

新模式的另一个突破是减少了计算资源和训练时间的巨大消耗。为了提高大规模预训练模型的行业通用性和易用性,启蒙团队构建了高效的预训练框架,大大提高了编码、模型、训练、参数调整和推理的效率。

(1)高效编码:针对稀有词等问题,开发了最高效、抗噪的汉语预训练语言模型编码;

(2)高效模型:构建了世界上第一个纯非欧空间模型,只需要一半的参数就能达到近似欧洲模型的效果;

(3)高效训练:全球首个大规模预训练模型融合框架形成新的高效训练模型,训练时间缩短27.3%,速度提高37.5%;

(4)高效微调:全球首个多类别Prompt微调,只需训练0.001%的参数即可实现下游任务适配;

(5)高效推理:全球首款低资源大规模模型推理系统,单机单卡GPU可进行1000亿参数规模的模型推理。

“启蒙”模式在3月份推出时,预计将与部分龙头企业联合研发应用成果。该模式发布时,宣布已正式与新华社、美团、小米、阿托快行、搜狗、360、寒武纪、第四范式、美好未来、智普华章等22家合作企业签约。同时推出“启蒙之巅”模型应用大赛,鼓励开发者使用该模型开发应用案例。


本文来自环球国际 转载请注明

上一篇 下一篇


  • 用户名:
  • 密码:
  • 验证码:
  • 匿名发表