苹果维修点

您现在的位置是:首页 > 技术前瞻 > 人工智能

人工智能

Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准

2019-09-24 14:59:08 人工智能
  自然语言理解(NLU)和语言翻译是一系列重要应用的关键,包括大规模识别和删除有害内容,以及连接世界各地不同语言的人们。尽管近年来基于深度学习的方法加速了语言处理的进

  自然语言理解(NLU)和语言翻译是一系列重要应用的关键,包括大规模识别和删除有害内容,以及连接世界各地不同语言的人们。尽管近年来基于深度学习的方法加速了语言处理的进展,但在处理大量标记训练数据不易获得的任务时,现有系统的处理水平仍然是有限的。

  因此,Facebook 联合 Deepmind Technologies、纽约大学(NYU)及华盛顿大学(UW)合作构建新基准 SuperGLUE,并发布了相关内容介绍该高难度测试基准,AI 开发者将其整理及编译如下。

  SuperGLUE 推出背景

  最近,Facebook 人工智能在 NLP 方面取得了重大突破。Facebook 通过使用半监督和自监督学习技术,利用未标记的数据来提高纯监督系统的性能。

  在第四届机器翻译大会(WMT19)比赛中,Facebook 采用了一种新型的半监督训练方法,并在多种语言翻译任务中获得了第一名。Facebook 还引入了一种新的自我监督的预训练方法——RoBERTa。它在一些语言理解任务上超过了所有现有的 NLU 系统。在某些情况下,这些系统甚至优于人类基线,包括英德翻译和五个 NLU 基准。

  在整个自然语言处理领域,NLU 系统的发展速度如此之快,以至于它在许多现有的基准上已经达到了一个极限。为了继续提高技术水平,Facebook 与 Deepmind Technologies、纽约大学及华盛顿大学合作开发了一套全新的基准、排行榜和 PyTorch 工具包Facebook 希望这些成果将进一步推动自然语言处理领域的研究进展。

Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准

  简而言之,这些新工具将帮助人类创建更强大的内容理解系统,而且能够翻译数百种语言,理解诸如含糊不清、共同引用和常识性推理等复杂的问题,从而减少现有的这些系统对大量标记训练数据的依赖性。

  对于神经机器翻译(NMT)模型,有监督式训练通常需要大量附有参考翻译的句子。然而,大量高质量的双语数据并不是普遍可用的,这就要求研究人员使用没有参考翻译的单语数据。反向翻译(Back translation,一种半监督学习技术)允许 Facebook 在一定程度上克服这个问题。

  Facebook 最近提交给 WMT 的报告是基于 Facebook 之前在大规模反向翻译方面的工作,这也帮助 Facebook 在去年的同一比赛中赢得了第一名。

  而今年,Facebook 引入了一种新的方法,通过生成多个候选译文,并选择最能平衡正向、反向、流畅性三种不同模型分数的译文,来进一步改进 Facebook 的反向翻译系统。

  正向模型的分数主要由候选翻译在多大程度上捕捉了原句的意思来衡量;相反,反向模型的分数是通过查看模型能从候选译文中重建出的句子准确性来评判;流畅性模型的分数根据候选翻译流畅性来衡量,最后系统通过观察大量的单语数据以自我监督的方式进行训练;经过对这三个分数的平衡,系统就能够产生显著优化后的翻译结果。

  经过几年的努力,Facebook 将英-德语翻译任务的性能提高了 4.5 BLEU(衡量生成的翻译和专业参考之间重叠程度的指标),这是一个很大的改进。根据人工评估,Facebook 的模型在英-德、德-英、英-俄,和俄-英四个翻译任务中排名第一。根据 WMT 赛制的评判,Facebook 的英-德语翻译甚至比人工翻译更佳。

赐研手机维修网】文章内容来源:https://vip-chn.com/jishu/ai/1754.html