一文了解NLP预训练模型前世今生
早期预训练的工作主要集中在迁移学习上,其中特征迁移和参数迁移是两种最为广泛的预训练方法。
从早期的有监督预训练到当前的自监督预训练,将基于Transformer的PTM作用于NLP任务已经成为了一种标准流程。
可以说,最近PTM在多种工作上的成功,就得益于自监督预训练和Transformer的结合。ASP站长网/div>
这也就是论文第3节的主要内容:
神经架构Transformer,以及两个基于Transformer的里程碑式的预训练模型:BERT和GPT。
清华唐杰团队:一文看懂NLP预训练模型前世今生 两个模型分别使用自回归语言建模和自编码语言建模作为预训练目标。
后续所有的预训练模型可以说都是这两个模型的变种。
例如论文中展示的这张图,就列出了近年修改了模型架构,并探索了新的预训练任务的诸多PTM:
清华唐杰团队:一文看懂NLP预训练模型前世今生 大规模预训练模型的最新突破 论文的4-7节则全面地回顾了PTM的最新突破。
这些突破主要由激增的算力和越来越多的数据驱动,朝着以下四个方向发展:
设计有效架构
在第4节中,论文深入地探究了BERT家族及其变体PTM,并提到,所有用于语言预训练的基于Transformer的BERT架构都可被归类为两个动机:
统一序列建模 认知启发架构 除此以外,当前大多数研究都专注于优化BERT架构,以提高语言模型在自然语言理解方面的性能。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |