发布时间:2021年10月11号
文章地址(论文还没出来):Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model - Microsoft Research 亮点:
参数高达5300亿,是最大的单体模型。
根据英伟达的博客介绍,MT-NLG在完成预测(Completion prediction)、阅读理解(Reading comprehension)、常识推理(Commonsense reasoning)、自然语言推论(Natural language inferences)、词义消歧(Word sense disambiguation)这几个方面都取得了「无与伦比」(unmatched)的成就。
Megatron-Turing意思是威震天-图灵,于是我p了这张图
知乎相关讨论:
10. NÜWA:(女娲)
发布时间:2021年11月24日
论文地址:NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion 亮点: