当前位置:首页  新闻

新闻

Google释出最新评估文字生成强健性的自动化指标BLEURT

2021-02-20 07:06:57

有鑒于现有的自动评估指标已经不敷使用,俨然成为自然语言生成技术的瓶颈,因此Google新开发了一个用来自动衡量文字产生强健性的指标BLEURT,能达到接近人类注释的準确性,其準确度比常用的自动指标BLEU还高48%。

过去几年自然语言生成技术的发展有长足的进步,可以使用越来越高级的方法,精确地翻译文字、总结文章、进行对话甚至是发表图片评论,而Google提到,目前评估自然文字产生系统有两种方法,分别是人工评估以及自动化指标。人工评估是仰赖人工注释者进行大规模的品质调查,注释者会检视系统所产生的文字,并评估其流畅性和含义的品质,这种方法虽然精确,但是却相当费时,仅数千个範例可能就需要数十人参与评估,这将会破坏模型开发的工作流程。

相较于人工评估,自动评估是更为理想的方法,优点是更便宜且延迟低,自动评估通常以两个句子作为输入,一个是候选词,另一个则是参照词,评估系统藉由比较两者相似度给出一个分数,目前常用的衡量标準为BLEU;自动指标与人工评估的优缺点刚好相反,自动指标可以在模型训练的时候进行计算,回馈强化模型训练,但是由于其评估仅是表面相似度,因此準确度不高,也无法撷取人类语言的多样性。

Google认为,理想的评估方法,应该要兼具人工评估和自动指标的优点,计算过程成本应该尽量低廉,且又具有足够灵活性应对语言多样性。Google新发展的BLEURT,则是一个运用机器学习技术的自动指标,能够捕捉句子间语意的相似性。

而训练BLEURT模型的第一个问题,便是训练资料数量不足,即便最大的人类评估资料集WMT Metrics Task,新闻领域也只有26万笔人工评估,而这不足以训练出进阶的自然语言生成系统评估指标,为了解决这个问题,Google採用转移学习,应用BERT的上下文单词表示法,这是一种用于语言理解的最新非监督式表示学习法,另外,Google还使用了先进的预训练方法,以提高BLEURT强健性。

之所以BLEURT的效能可以这么好,就是因为使用预训练技术,Google解释,在使用人类评估资料微调之前,先使用数百万个合成句对为模型预热,研究人员使用维基百科上的句子,应用随机扰动技术产生训练资料,由于不使用人工评估,而是使用指标和模型集合,因此能以低成本但极大程度扩大训练範例的数量。

经实验证实,预训练确实提高了BLEURT準确性,而Google对BLEURT进行了两次预训练,一次针对语言建模目标,另一次针对一系列自然语言生成评估目标,最后才使用WMT指标资料集进行微调。

Google对BLEURT进行了基準测试,结果证实BLEURT效能良好,包括在机器翻译和资料生成文字等任务都超越现有的方法,比应用WMT Metrics Shared Task的BLEU,人工评估分数还要高48%。

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。