领跑NLG技术！追一科技开源首个中文T5模型

2021.04.08 16:57:00来源: IT168 作者:IT168

创新五载，智驭未来。

2016年成立以来，从NLP到最新的多模态技术，创新一直是我们发展的基石，让追一在业内保持着技术和商业落地的领先。同时，我们也将创新成果持续开放，分享给伙伴，首届中文NL2SQL挑战赛，SimBERT、WoBERT等多个预训练模型的开放见证了我们对业界的贡献。近期，追一又开源了首个中文T5模型，共同推进NLG发展。

众所周知，自BERT以来，预训练模型遍地开花，自然语言理解（NLU）领域有了长足的进步。相比之下，自然语言生成（NLG）仍然方兴未艾。近年来，一些NLG预训练模型如UniLM、BART、T5等也陆续发布，但这些模型往往是纯英文或者多语言形式，并没有精细地为中文“定制”的NLG预训练模型。

为了弥补中文NLG预训练模型的空白，共同推动中文NLG技术的进步，追一科技结合自身的中文NLP经验，训练并开源了国内首个中文生成式预训练模型T5 PEGASUS，在自动摘要、问题生成多个自然语言处理任务上，达到了新高度。值得注意的是，T5 PEGASUS凭借出色的小样本学习能力，还可以帮助企业和开发者大大减轻数据标注训练负担。

　　AI创作风起云涌，NLG知多少

自然语言生成（NLG），通常也称文本生成，泛指一切输入输出都是自然语言的任务，可以应用于多种场景，比如电商领域的标题和文案生成，司法、保险等领域的文本摘要，还有各种AI写诗、写歌、写故事等创作，甚至解数学题等等，同时，它也可以用于再生数据，比如生成相似问、关键词造句等，从而减轻AI训练和运营本身的成本。

比如文案生成

　原始数据：

大码男装潮牌胖子加肥加大圆领针织衫拼接男士大号套头毛衣秋冬季

NLG模型输出：型男潮胖也帅气原创圈粉毛衣，优质的面料，柔软舒适，亲肤透气，立体剪裁，修身的版型，时尚的设计，给你带来舒适感，穿着非常的有型，而且气质十足，穿着它在冬日出行，绝对让你轻松吸引 mm 的注意。

再举一例，解数学题

　　原始的数据：

有 50 个数的平均数是 83，如果去掉其中两个数，这两个数的和是 118，那么剩下的数的平均数是多少？

NLG模型输出：

　　(50*83-118)/(50-2)

NLG这么强大，但同时也是NLP领域最具挑战性的任务之一。它不仅要求模型做出正确的决策，还需要模型用流畅的文字作出回复。经常会面临的问题是：1、结巴生硬，即生成的句子不够流畅，可读性不好；2、辞不达意，主要表现是生成结果跟输入相关性不大；3、数据量大，也就是想要模型效果好，往往需要大量的标注数据。

通过预训练技术，可以大大改良NLG所面临的这几个问题。在预训练模型领域，已经涌现了UniLM、BART、T5等经典的NLG预训练模型，尤其是屠榜狂魔T5，依靠Google一如既往的“大力出奇迹”模式，刷爆了多个NLP榜单，但值得注意的是，在中文NLG研究上，预训练模型还处于空白。即便是T5国际版支持中文，也并非根据中文的特点设计数据预处理方式、构建预训练语料，这样无法将中文NLG效果提升到极致，很多应用场景也就无法释放。

　　给T5加点料，

　更懂中文的T5 PEGASUS

为了共同推进中文NLG技术的发展，追一科技技术团队，结合中文研究的特点和需求，构建了中文定制的T5 PEGASUS模型，并进行开源。

顾名思义，T5 PEGASUS是T5和PEGASUS的结合。其中，T5的思想是将一切NLP任务都转化为NLG任务来处理，跟最近很火的GPT3有一定的相通之处，它代表了自然语言处理的终极理想“万事都以自然语言表达”，也成为NLG研究的重要参考方向，本次开源的模型也正是在T5的多国语言版（mT5）的基础上进行改进的；而PEGASUS是Google提出来的一种预训练方式，虽然初衷是自动摘要，但经过追一团队的尝试，它可以作为一种通用的生成式预训练任务，开拓更多的场景。

具体来说，追一技术团队以mT5为出发点，通过中文语料构建PEGASUS任务来对mT5进行继续预训练。团队还改进了中文分词器，使得它对中文更加友好，然后对训练语料进行了细致的筛选、去噪等处理。一系列操作下来，原来的“泛”而“全”的多国语言mT5逐步转变为了“专”而“精”的中文T5 PEGASUS模型。

　　小样本效果出众

效果方面，T5 PEGASUS表现出色，比如在自动摘要任务的Rouge指标上，它平均比原来的最优结果高出1%以上，在问题生成等任务上同样达到了新的高度，是当前中文NLG模型中的SOTA（算法模型性能在当前最优）。

值得指出的是，T5 PEGASUS可以大大降低NLG任务的标注数据量要求。用少量带标签数据，训练优秀的模型，这样的小样本学习越来越受到关注。T5 PEGASUS的小样本学习能力相当出众，比如在自动摘要任务上，仅用10个标注样本就可以得到一个可读的摘要模型，样本利用效率对比mT5提升10倍，效果远超其他模型！