NLP两强争霸： OpenAI与GPT-2 的“倔强”进击

发布时间：2020-02-06 08:06:59 所属栏目：通讯来源：网络整理

导读：NLP两强争霸： OpenAI与GPT-2 的“倔强”进击

自然语言处理（NLP）技术正在生活的方方面面改变着我们的生活。

客厅的智能音箱在跟你每天的对话中飞速进步，甚至开始跟你“插科打诨”来适应你的爱好习惯。

电商客服总是能在第一时间回复，可能处理完你的问题，你也并未发觉TA可能只是一个智能客服。现实版的“图灵测试”每天都在发生。

经常查阅外文资料的你也许早已习惯网页或几家搜索引擎的一键翻译，译文的质量好到让你觉得学外语的时间纯属浪费。

闲来无聊当你刷信息流或者短视频，总是事后发现沉迷其中的时间越来越多，其实背后正是自然语言算法平台在根据你的浏览习惯、注意力时长来进行的优化推荐。

由果溯因，我们希望简单回顾近几年NLP的跃迁升级，沿着这条技术洪流一直溯源。回到水源充沛、水系林立的技术源头，来理解NLP演进的脉络。

NLP两强争霸： OpenAI与GPT-2的“倔强”进击

关注NLP的人们一定知道，2018年是NLP领域发展的大年。

2018年6月，OpenAI发表了题为《Improving Language Understanding by Generative Pre-Training》的论文，提出基于“预训练语言模型”的GPT，它首先利用了Transformer网络代替了LSTM作为语言模型，并在12个NLP任务中的9个任务获得了SOTA的表现。但种种原因GPT并未获得更大关注。

GPT的基本处理方式是在大规模语料上进行无监督预训练，再在小得多的有监督数据集上为具体任务进行精细调节（fine-tune）的方式，不依赖针对单独任务的模型设计技巧，可以一次性在多个任务中取得很好的表现。

直到10月，谷歌的BERT（Bidirectional Encoder Representation from Transformers)问世，一经发布便得到各界广泛关注。BERT模型在11项NLP任务中夺得SOTA的表现，更是令谷歌技术人员宣告“BERT开启了NLP新时代”的宣言。而BERT其实采用了和GPT完全相同的两阶段模型，首先是无监督的语言模型预训练；其次是使用Fine-Tuning模式解决下游任务。其不同之处在于BERT在预训练阶段采用了类似ELMO的双向语言模型，且使用了更大数据规模用于预训练。

NLP两强争霸： OpenAI与GPT-2 的“倔强”进击

BERT在改造NLP下游任务（包括序列标注，比如中文分词、词性标注、命名实体识别、语义角色标注等；第二类是分类任务，比如文本分类、情感计算等；句子关系判断，比如Entailment，QA，语义改写，自然语言推理等；生成式任务，比如机器翻译、文本摘要、写诗造句、看图说话等）上面，强大的普适性和亮眼的任务表现，成为它爆红NLP的底气。

仅仅四个月后，OpenAI发布GPT-2。这一大规模无监督NLP模型，可以生成连贯的文本段落，刷新了7大数据集SOTA表现，并且能在未经预训练的情况下，完成阅读理解、问答、机器翻译等多项不同的语言建模任务。

首先，CPT-2、BERT与GPT一样，延续Transformer的Self-Attention（自注意）作为底层结构。

OpenAI研究人员对无监督数据训练的坚持也许来自于这样一个思路：监督学习会造成语言模型仅能处理特定任务表现很好，而在泛化能力表现很差；而单纯依靠训练样本的增加，很难有效实现任务扩展。因此，他们选择在更通用的数据集基础上使用自注意力模块迁移学习，构建在 zero-shot 情况下能够执行多项不同NLP任务的模型。

与BERT的不同在于，CPT-2模型结构仍然延续了GPT1.0的“单向语言模型”。GPT-2似乎只有一个目标：给定一个文本中前面的所有单词，预测下一个单词。这一点倔强坚持，可以看出OpenAI的解决思路。

它选择把Transformer模型参数扩容到48层，包含15亿参数的Transformer模型，找到一个800万网页（WebText）数据集作为无监督训练数据。简单说，GPT-2就是对 GPT 模型的直接扩展，在超出10倍的数据量上进行训练，参数量也多出了10倍。这让GPT-2采用更加直接“暴力”的方式，单靠提升模型参数容量和增加训练数据的数量来超过BERT。

NLP两强争霸： OpenAI与GPT-2 的“倔强”进击

GPT-2作为一个文本生成器，只要在开始输入只言片语，这个程序会根据自己的判断，决定接下来应该如何写作。简言之，GPT-2作为通用语言模型，可以用于创建AI 写作助手、更强大的对话机器人、无监督语言翻译以及更好的语音识别系统。

OpenAI 设想，人们可能出于恶意目的利用GPT-2来生成误导性新闻、网上假扮他人欺诈、在社交媒体自动生产恶意或伪造内容、自动生产垃圾或钓鱼邮件等内容。所以，OpenAI在发布GPT2的同时就宣称“这种强力的模型有遭到恶意滥用的风险”，选择不对训练模型做完整开源，这一举动引来机器学习&自然语言处理界研究人员的激烈讨论。

无论是被外界嘲讽为对自家产品的“过分自负”，还是OpenAI出于PR目的的“故意炒作”，GPT-2 “刻意制造假新闻”的实力确实惊艳到了业内众人。各位吃瓜群众一边实力吐槽，一边又迫不及待想探究GPT-2的强大生成能力。

经过将近一年时间， GPT-2在谨慎开源和开发者的“尝鲜”参与中，进行着眼花缭乱的更新演进。

GPT-2阶段开源：带给开发者的土味狂欢

伴随争议和开发者高涨的呼声，OpenAI仍然出于谨慎考虑，选择了分阶段开源。8月以后，它分阶段发布了“小型的”1.24亿参数模型（有500MB 在磁盘上），“中型的”3.55亿参数模型（有1.5GB 在磁盘上），以及7.74亿参数模型（有3GB 在磁盘上）。直到11月6日，它正式放出GPT-2最后一个部分的包含15亿参数的最大版本的完整代码。

一直到完整版本公布，OpenAI并未发现任何明确的代码、文档或者其他滥用实证，也就是说一直担心的“GPT-2遭到滥用”的结果并没有发生，但OpenAI仍然认为，全面版本发布同时也会让恶意人士有机会进一步提高检测逃避能力。

NLP两强争霸： OpenAI与GPT-2 的“倔强”进击

所以，伴随着GPT-2不同版本的陆续公布，OpenAI自身与多家复现GPT-2模型的团队进行交流，验证GPT-2的使用效果，同时也在避免滥用语言模型的风险，完善检测文本生成的检测器。同时，OpenAI也还在与多家研究机构合作，比如对人类对语言模型产生的数字信息的敏感性的研究，对恶意利用GPT-2的可能性的研究，对GPT-2生成文本的统计可检测性的研究。

无论OpenAI出于怎样的谨慎，随着不同容量参数模型的发布，外界开发人员已经迫不及待进行各种方向的探索了。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/2

尾页