首页 > 金融 > > 正文

模型鲁棒性好不好，复旦大学一键式评测平台告诉你

2021-04-06 13:15:51来源：互联网

机器之心专栏

机器之心编辑部

复旦大学自然语言处理实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 任务，囊括 80 余种数据变形方法，花费超 2 万 GPU 小时，进行了 6.7 万余次实验，验证约 100 种模型，选取约 10 万条变形后数据进行了语言合理性和语法正确性人工评测，为模型鲁棒性评测及提升提供了一站式解决方案。

项目地址：https://github.com/textflint

官方网站：http://textflint.io

论文链接：https://arxiv.org/pdf/2103.11441.pdf

引言

近年来，随着自然语言处理技术的不断突破，深度学习模型在各项 NLP 任务中的表现正在稳步攀升。2018 年 1 月，在斯坦福大学发起的 SQuAD 阅读理解评测任务中，来自微软亚洲研究院的自然语言计算组所提出的算法率先赶超了人类。短短三年后，微软的 DeBERTa 和谷歌的 T5+Meena 模型在包含了多种自然语言处理任务的综合评测集合 SuperGLUE 上再次超越了人类。近日 IBM 号称 “首个能在复杂话题上与人类辩论的 AI 系统” 的 Project Debater 登上了 Nature 杂志的封面，该系统在 78 类辩题中获得了接近人类专业辩手的平均评分。我们不禁要问，人类真的被打败了吗？

事实上，纵使这些 NLP 模型在实验数据集上的表现十分惊人，在实际应用中我们却很难感知到自然语言处理系统 “超越人类” 的语言理解水平。难倒这些看似 “聪明” 的模型，只需要一个简单的“逗号”，即便是基于赫赫有名的预训练语言模型 BERT 的算法也不例外。

例如，“汉堡很好吃薯条一般”对汉堡的评价是正面的，但当我们插入 “，” 时，一些模型就会将 “汉堡很好吃，薯条一般” 判别为对汉堡的负面评价。一个微小且无关紧要的改动就能使自然语言处理系统失效，诸如此类的例子屡见不鲜。

鲁棒性何为

为何大杀四方的优秀模型在纷繁复杂的现实场景中纷纷折戟沉沙？其中一个很重要的原因是此前缺乏对模型鲁棒性的重视和深入探讨，导致模型只能在特定语料中圈地为王，在模型的效果评测中也仅仅关心在特定测试语料上的性能。如何帮助模型走出这样的困局，给自然语言处理领域带来质的飞跃，是实现下一步技术发展的紧要任务。

鲁棒性是机器学习模型的一项重要评价指标，主要用于检验模型在面对输入数据的微小变动时，是否依然能保持判断的准确性，也即模型面对一定变化时的表现是否稳定。鲁棒性的高低直接决定了机器学习模型的泛化能力。在研究领域中，许多模型只能在某一特定的数据集上呈现准确的结果，却不能在其他数据集上复刻同样优异的表现，这就是由于模型对新数据中的不同过于敏感，缺乏鲁棒性。

在现实世界的应用场景中，模型要面对的是更加纷繁复杂的语言应用方式，待处理的数据里包含着更加庞杂的变化。一旦缺乏鲁棒性，模型在现实应用中的性能就会大打折扣。在测试数据集上获得高分是远远不够的，机器学习模型的设计目标是让模型在面对新的外部数据时依然维持精准的判断。因此，为了确保模型的实际应用价值，对模型进行鲁棒性评测是不可或缺的。

方法 & 实验

目前已有一些正在关注模型鲁棒性的工作，但大多只针对单个的 NLP 任务，或是只使用了少量的数据变形方法，缺乏系统性的工具集合。针对这一问题，复旦大学自然语言处理实验室展开了大规模的鲁棒性测评工作，在桂韬博士、王枭博士、张奇教授、黄萱菁教授的主导下，20 余位博士生和硕士生共同参与，历时 9 个月，开发了面向自然语言处理的多语言鲁棒性测评一站式平台TextFlint

关键词：模型好不好复旦大学一键

模型鲁棒性好不好，复旦大学一键式评测平台告诉你

推荐内容