tera下载
- 时间:
- 浏览:75
- 来源:奥一装修网
NVIDIA DGX SuperPOD在短短47分钟内训练了BERT-Large,并训练了GPT-2 8B,这是有史以来最大的具有8。3Bn参数的Transformer网络。
对话式AI是人类与智能机器和应用程序(从机器人和汽车到家庭助理和移动应用程序)进行交互的重要基础。长期以来,使计算机能够理解人类语言及其所有细微差别并做出适当响应,一直是AI研究人员的圣杯。在由加速计算支持的现代AI技术出现之前,不可能构建具有真正自然语言处理(NLP)功能的系统。
随着大量基于Transformer的语言模型的出现,例如BERT(来自Transformer的双向编码器表示)和具有超过10亿参数的GPT-2(Generative Pretrained Transformer 2)模型,语言理解任务发展迅速。
BERT触发了精确语言模型的新潮流
BERT可针对许多NLP任务进行微调,非常适合于语言理解任务,例如翻译,问题回答,情感分析和句子分类。基于Transformer架构的BERT和模型(例如XLNet和ROBERTa)在流行基准(例如SQuAD(用于回答问题的评估)和GLUE(用于跨多种语言的一般语言理解)上可以达到甚至超越人类。
模型复杂度是基于Transformer的网络的另一个属性,可提高NLP的准确性。比较BERT的两个不同版本可以发现模型大小与性能之间的相关性:BERTBASE创建1。1亿个参数,BERT-Large使用3。4亿个参数将平均GLUE得分提高了3%。预计这些模型将继续增长以提高语言准确性。
NVIDIA Tensor Core GPU在不到一个小时的时间内训练BERT
具有92个DGX-2H节点的NVIDIA DGX SuperPOD在短短47分钟内通过训练BERT-Large创下了新纪录!在每个节点上使用1472 V100 SXM3-32GB 450W GPU和8个Mellanox Infiniband计算适配器,使用自动混合精度运行PyTorch以提高吞吐量,并使用本文中的训练方法,创造了记录。对于仅访问单个节点的研究人员,具有16个V100的DGX-2服务器可以在3天内训练BERT-Large。下表说明了为各种数量的GPU训练BERT-Large的时间,并显示了随着节点数量增加而进行的有效缩放:
单个DGX-2H节点具有2 petaFLOP AI计算能力,并且可以处理复杂的模型。大型BERT模型需要大量内存,每个DGX-2H节点可为整个DGX SuperPOD群集提供0。5TB的高带宽GPU内存,总共运行46TB。 NVIDIA互连技术(例如NVLink,NVSwitch和Mellanox Infiniband)可实现高带宽通信,从而实现高效缩放。 GPU与强大的计算能力,对大量DRAM的高带宽访问以及快速互连技术的结合,使NVIDIA数据中心平台成为极大加速BERT等复杂网络的最佳选择。
GPT-2 8B:有史以来最大的基于Transformer的语言模型
爆炸性的模型复杂性–网络参数的数量
为了调查这些庞大的,超过十亿个基于Transformer的网络,NVIDIA Research推出了Project Megatron项目。这是为最先进的NLP创建最大的Transformer模型的一种努力。 15亿参数的GPT-2模型已扩展为更大的83亿参数的Transformer语言模型:GPT-2 8B。使用本地PyTorch在512个GPU上使用8路模型并行性和64路数据并行性对模型进行了训练。 GPT-2 8B是有史以来最大的基于Transformer的语言模型。它的大小是BERT的24倍,是GPT-2的5。6倍。
实验是在NVIDIA的DGX SuperPOD上进行的。该模型的基准模型有12亿个参数,可以安装在单个V100 GPU上。在单个GPU上运行此基准模型的端到端培训管道可以达到39 TeraFLOPS,这是GPU理论峰值FLOPS的30%。 NVIDIA团队通过8路模型并行将模型扩展到512个GPU上的83亿个参数。 NVIDIA团队在整个应用程序中实现了高达15。1 PetaFLOPS的连续性能,与基准测试相比,缩放效率达到了76%。
Model并行性会固有地引入一些开销,与可以在单个GPU上运行且不需要任何模型并行性的BERT相比,它会稍微影响缩放效率。下图显示了缩放结果,有关技术细节的更多信息可以在单独的博客文章中找到。
计算性能和扩展效率
GPT-2模型在从Reddit链接下载的37GB WebText数据集上进行了训练。下图显示了WebText验证混乱与不同模型大小的周期数之间的关系。从经验上我们发现,较大的模型训练更快,并导致更好的结果(较低的验证混乱)。
WebtextVerification混乱和各种GPT-2型号的大小历史记录必要的计算以提高执行速度和准确性。这些模型可以处理大量未标记的数据集,这一事实使它们成为现代NLP的创新中心,因此可以选择使用对话式AI应用程序的智能助手。
具有Tensor Core架构的NVIDIA平台提供了可编程性,以加速现代AI的全面多样性,包括基于Transformer的模型。此外,DGX SuperPOD的数据中心规模设计和优化,以及软件库和对领先AI框架的直接支持,为开发人员提供了一个无缝的端到端平台,以执行最困难的NLP任务。
NVIDIA加速软件中心NGC免费提供连续优化,以加速在多个框架上进行GPU BERT和Transformer培训。
NVIDIA TensorRT包括用于在BERT和大型基于Transformer的模型上运行实时推理的优化。要了解更多信息,请查看我们的“会话式AI的实时BERT推理”博客。 NVIDIA的BERT GitHub存储库今天有代码来复制此博客中引用的单节点训练性能,并且在不久的将来,该存储库将使用复制大型训练性能数据所需的脚本进行更新。