克日,Google AI的研究团队公布了一种文本到文本迁移转换器——面向摘要、问答、分类等自然语言问题的统一文本-文本迁移学习框架,而且在相关数据集上刷新了多个NLP任务的SOTA。迁移学习是一种需要在一个数据富厚的任务上对人工智能模型举行预训练,然后再在另一个任务上对其举行微调的技术。
现在,迁移学习已经乐成地应用于从机械人到工具分类等领域。可是在自然语言处置惩罚(NLP)子领域中,迁移学习具有特殊的前景,在自然语言处置惩罚(NLP)子领域中,迁移学习发生了多种基准测试方法。
为了进一步完善它,谷歌的研究人员开发了一个新的数据集——庞大的洁净爬行语料库和一个被称为“文本到文本迁移转换器”的统一框架和模型,可以将语言问题转换为文本到文本的花样。研究人员说,在使用提交给通用语言明白评估(GLUE)基准的模型举行的实验中,他们获得了最新的效果,涵盖了问题解答、文天职类等等。一般来说,训练一个模型执行NLP任务涉及到确保模型开发出使其能够“明白”文本的知识——这些知识可能从低级的(单词的拼写或寄义)到高级的(大号这个乐器太大了,大多数背包都无法装进去)。Google小组研究了一种方法,该方法将文本作为输入并发生新的文本作为输出,并将相同的目的、训练历程息争码历程应用于每个任务。
研究人员编写的通用知识训练语料库(前面提到的庞大、洁净的语料库)其中的片段来来自Common Crawl项目,该项目每个月从web上抓取约莫20TB的英语文本。为了过滤掉乱码、样板菜单和错误消息,在删除带有显着填充文本和重复内容的页面时,它们只保留以竣事标点符号(句号、叹息号、问号或竣事引号)末端的文本行。所获得的荟萃比预训练的数据集大一个数量级,约为750 GB。
上图:由Google的AI模型生成的文字。研究人员在语料库上训练了几个基于Transformer的模型,来评估其“文本到文本”方法的有效性。对于外行人来说,Transformer是一种新型的神经结构,由Google AI研究部门Google Brain的科学家配合撰写,于2017年揭晓。
与所有深层神经网络一样,Transformer模型包罗排列在相互毗连的层中的神经元(数学功效),这些层传输来自输入数据的信号并缓慢调整每个毗连的突触强度(权重)。这是所有AI模型提取特征并学习举行预测的方式,可是Transformers的奇特之处在于,每个输出元素都毗连到每个输入元素。
它们之间的权重是动态、有效地盘算出来的。最大的模型T5包罗多达110亿个参数,即模型内部的设置变量,在举行预测时需要这些参数。通过对差别语言测试的微调,该团队表现,他们在GLUE、阅读明白基准SQuAD和CNN Daily Mail上的平均分数到达了最高水平(89.7分)。他们还在 SuperGLUE 上举行了测试,该基准包罗了一些比当前 NLP 系统越发难题的任务,得分为 89.8,体现可媲尤物类。
谷歌团队认可,模型在诸如翻译之类的语言任务中不尽人意,他们将此归罪于特定任务数据相对缺乏和训练规模不足。因此,他们提倡使用较小的模型实现更强性能,以便将迁移学习应用于最有影响的地方。
该论文的合著者写道:“我们的研究得出重要的且令人惊讶的效果——较大的模型往往体现更好。”“运行这些模型的硬件越来越自制,功效越来越强大,这一事实讲明,扩大训练规模可能仍是实现更好性能的方法。
可是,在某些应用法式和场景中,使用较小或较自制的模型更有效这一现象总是存在的,例如在执行客户端推理或团结学习时。GitHub链接:https://github.com/google-research/text-to-text-transfer-transformer论文链接:https://arxiv.org/abs/1910.10683福利:关注本民众号(ID:turingtopia)特别推荐如果您对工业互联网、数据中台、精准营销、智能推荐、人脸识别等业务履历和AI应用感兴趣,就来@派小僧 吧!一线专家给你:最全面的趟坑总结;最前沿的实践履历;最新落地的行业应用案例。
立刻关注,一网打尽!(ID:python_daydayup)《云原生下数据治理的微服务架构》:https://mp.weixin.qq.com/s/CyItUzXITwR3LHBNFOTQZg。
本文来源:welcome欢迎光临威尼斯-www.fytfsb.com