时间:2022-11-30 09:37:41 | 浏览:785
机器之心报道
编辑:张倩、小舟
我们平时用的机器学习数据集存在各种各样的错误,这是一个大家都已经发现并接受的事实。为了提高模型准确率,有些学者已经开始着手研究这些数据集中的错误,但他们的研究主要集中在训练集,没有人系统研究过机器学习测试集的误差。
众所周知,测试集是我们拿来衡量机器学习模型性能的基准。如果测试集错误百出,我们得到的性能数据也会存在很大偏差。
在一篇新论文中,麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。
论文链接:https://arxiv.org/pdf/2103.14749.pdf
下图 1 显示了各数据集中存在的错误示例:
为了向所有人展示这些错误,帮助改进数据集,研究者还做了一个专门的归类网站。
网站地址:https://labelerrors.com/
该网站列出的错误主要包括三种类型。第一种是标错的图像,如码头被标记成纸巾。
第二种是被标错的文本情感倾向,如亚马逊的商品评价本来是消极的,但被标成积极的。
第三种是被标错的 YouTube 视频的音频,如爱莉安娜 · 格兰德的高音片段被标记成口哨。
论文作者在研究中发现了一个有趣的现象:ResNet-18 这类比较简单的模型错误率要低于 ResNet-50 这种更为复杂的模型,这取决于不相关数据(噪声)的普遍性。因此,作者建议,如果你的数据集标签错误率高达 10%,你可以考虑使用较为简单的模型。
为了方便大家复现论文结果并在自己的数据集中找到标签错误,研究者还在 GitHub 上开源了他们用到的 Python 包(cleanlab)。
项目地址:https://github.com/cgnorthcutt/cleanlab
参与调查的十大数据集
下表一显示了研究者本次调查的十个数据集以及它们的测试集错误率。
以下是这些数据集的详细信息,从它们的标注过程我们看出标签出错的一些可能原因:
MNIST
MNIST 数据集是是美国国家标准与技术研究院收集整理的大型手写数字数据库,最早是在 1998 年 Yan Lecun 的论文中提出的。该数据集包含了 0-9 共 10 类手写数字图片,每张图片都做了尺寸归一化,都是 28x28 大小的灰度图。该数据集的 ground-truth 标签是通过将数字与任务的指令相匹配来确定的,以便于复制一组特定的数字。标签错误可能是由于未遵循该数据集的相关说明和手写歧义引起的。
CIFAR-10 和 CIFAR-100 数据集
CIFAR-10 和 CIFAR-100 数据集分别由 10 类和 100 类 32 × 32 图像组成。这两个数据集通过在互联网上搜索类别标签来收集图像。人工标记时通过过滤掉标签错误的图像,来选择与类别标签匹配的图像。标记器仅根据图像中最突出的一个实例来赋予标签,其中允许该实例有部分遮挡。
Caltech-256
Caltech-256 数据集是一种包含图像和类别的数据集,其中的图像是从图像搜索引擎中抓取的,人工标记时将图像评定为 good、bad 和 not applicable,从数据集中过滤掉遮挡过度、混乱,以及非物体类别示例的图像。
ImageNet
ImageNet 数据集是机器学习研究中最常用的数据集之一。该数据集通过在几个图像搜索引擎上查询 WordNet 同义词集(synset)中的单词来抓取图像。这些图像由 Amazon Mechanical Turk 的工作人员标记,他们要检查这些图像是否包含特定同义词集中的对象,过滤掉对象混乱、遮挡过度的图像,并确保数据集的图像多样性。
QuickDraw
QuickDraw 涂鸦数据集是一个包含 5000 万张图画的集合,分成了 345 个类别,这些图画都来自于 Quick, Draw! 游戏的玩家。这些图像带有一些元数据标注,包括玩家被要求绘画的内容等。该数据集可能存在图像不完整、标签不匹配等情况。
20news
20 Newsgroups 数据集是由发布到 Usenet 新闻组的文章的集合,一共涉及 20 种话题。该数据集常被用于对文本分类和聚类图像模型进行基准测试。其中每个样本的标签是最初发布的新闻组(例如 misc.forsale),该标签可以在数据收集过程中获得。
IMDB
IMDB 大型影评数据集是情感分类数据集,用于二元情感分类。其中的标签是由用户的评价决定的:满分 10 分,分数≤ 4 被视为否定,分数≥ 7 被视为肯定。
评价中表示这是一部值得看的作品,但 IMDB 数据集给出的标签是负面的。
Amazon Reviews
Amazon Reviews 数据集是来自亚马逊客户的文本评价和 5 星级评级的集合,通常被用于基准情感分析模型。
AudioSet
AudioSet 数据集包含 632 类音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(片段来自 YouTube 视频),被称为声音版 ImageNet。研究者指出一些标签错误是因为标签混乱、人为错误以及音频检测差异造成的。
如果测试集错误太多,大模型未必好用
在估计了各个测试集的错误率之后,研究者利用 ImageNet 和 CIFAR-10 作为案例研究了测试集标签错误对基准稳定性造成的影响。
虽然这些基准测试数据中存在很多错误标签,但研究者发现,在移除或修正这些错误之后,基准中的模型相对排名并没有受到影响。但他们也发现,这些基准结果是不稳定的:与参数较少的模型(如 ResNet-18)相比,容量较大的模型(如 NasNet)在预测结果中更加能够反映这些系统性标签错误的分布,而且这种效应随着测试标签错误普遍性的增加而变得更加明显。
这不是传统的过拟合。更大的模型能够更好地泛化至测试数据中给定的噪声标签,但这是有问题的,因为在标签修正之后的测试数据上进行评估时,这些模型给出的预测结果比不上那些容量较小的模型。
在存在大量标注错误的现实世界数据集中,小容量模型可能比大容量模型更有用。举个例子,从基于原始给定标签的测试准确率来看,NasNet 似乎要优于 ResNet-18,但如果用标签修正之后的测试集进行测试,NasNet 的准确率其实比不上 ResNet-18。由于后者在现实中更为重要,在这种情况下,我们在现实中部署的也应该是 ResNet-18,而不是 NasNet。
为了评估流行预训练模型的基准如何变化,研究者随机并递增地删除正确标记样本,每次删除一个,直到只剩下一组原始的被错误标记的测试数据(标签得到纠正)。借助这种方法,他们只删除了 6% 的正确标记测试样本就让 ResNet-18 的表现超越了 ResNet-50。
该研究表明,如果着手纠正测试集中的标签错误或在数据集噪声较多时使用较小 / 较简单的模型,ML 从业者可能会从中受益。当然,你首先要确定你的数据集噪声是不是真的有那么大,判断方法可以在论文中找到。
参考链接:https://www.csail.mit.edu/news/major-ml-datasets-have-tens-thousands-errors
随着新一轮科技革命和产业变革兴起,大数据、云计算、人工智能等技术日益发展,越来越多的企业开始探寻商业模式创新和商业生态系统重构的途径与方法,因此越来越多的企业走向数字化转型之路。然而企业数字化转型不是一蹴而就的事情,对于企业本身而言,不仅涉
来源:烟台日报-大小新闻7月31日,烟台首例“德尔塔”新型冠状病毒患者确诊,全民核酸检测行动一触即发,面对这场硬仗,除了医护人员、一线工作者在前线拼搏,还有这样一群“战士”在背后默默地提供着技术支持。作为烟台市乃至山东省大数据应用的领军企业
10月21日,网易数字+大会在杭州钱塘江畔召开,网易数帆旗下网易有数在会上发布了全链路数据生产力平台2.0,推出了DataOps、逻辑数据湖在内的最新技术实践,进一步完善数字治理能力,促进企业数智化转型升级。网易有数产品总经理余利华表示,迈
金融数据或许并没有那么弱——2022年7月金融数据点评-202208151、波动较大是2022年金融数据的核心特点回顾2022年1月至今的金融数据,其中2022年1月、3月、5月、6月均显著高于往年同期,而4月、7月显著低于往年同期,202
转自公众号:甲子光年5到10年后,当人工智能全面普及,科技先驱和新一代商业巨子注定会被时代的聚光灯铭记。但今天,「甲子光年」却想说一个关于人工智能“从未被讲出”的故事,写一群时代大幕后的“隐形者”——标数据的人。智能时代滚滚巨轮之下,一批批
下面通过一段对话,您就知道什么是大数据、大数据对你又有什么启发和帮助了。披萨店的电话铃响了。客服拿起电话:客服:您好! 请问有什么需要我为您服务?顾客:你好!我想要一份……客服:先生,请先把您的会员卡号告诉我,好吗?顾客:16846146*
一个参加抗疫工作的基层医生这样说,我们五六个人想要查清楚一位新冠病例在两个半小时里的行踪和密接者,花了8个小时,还不能够清晰地准确追寻到。他们靠什么追寻呢?可能很多人都会说,大数据。有些人一直认为,现在我们都是透明人,暴露在大数据之下,没有
来源网络。旨在交流学习,如有侵权,联系速删,来源见文末。大数据治理体系•大数据治理是一项系统工程,大到大数据技术平台的搭建、组织的变革、政策的制定、流程的重组,小到元数据的管理、主数据的整合、各种类型大数据的个性化治理和大数据的行业应用。•
来源:【四川日报-川观新闻】读书班学习笔记• 顾红松• 四川省大数据中心党组书记、主任这次读书班深入学习贯彻党的二十大精神,结合四川实际,进一步谋划以中国式现代化引领四川现代化建设具体部署,主题明确,催人奋起。省大数据中心将始终牢记“国之大
在国家实施大数据战略、推进数据资源整合和开放共享、加快建设数字中国的大环境下,大数据已成为推动经济社会发展的基本要素,大数据的研究和应用进入了蓬勃发展的上升期。但大数据平台抵御安全风险的能力亟须加强,大数据应用面临的数据安全威胁与隐私泄漏也
随着大数据时代的到来,之前一些凭经验的行业也都开始使用大数据去解决实际问题了,譬如房地产/商业地产行业、商业咨询、物业、旅游行业、零售快消、文体娱乐以及个体开店的老板,可以说现在大数据已经深入到我们的各行各业了,哪怕您不在这几大行业,如果您
开谈不说大数据,读尽诗书也枉然。在大数据、云计算、移动互联网、物联网、人工智能大行其道的当下,街头巷尾听到最多的名词就是大数据了,但你真的理解大数据吗?大数据到底是什么?如果此时你心里只有“量大”这一个答案,那请耐心读完本文,我将用一张技能
其实简单的来说,大数据就是通过分析和挖掘全量的非抽样的数据辅助决策。大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的。再比如精准营销、百度的推广、淘宝的喜欢
首先,当前有很多大学都陆续开设了大数据专业,所以选择大数据专业也有很多高校可以选择,虽然大数据专业的开设时间比较短,但是由于大数据技术体系已经趋于成熟,而且在研究生阶段已经积累了大量的培养经验,所以当前选择大数据专业也会有一个比较好的学习体
下面通过一段对话,您就知道什么是大数据、大数据对你又有什么启发和帮助了。必胜客店的电话铃响了。客服拿起电话:客服:您好! 请问您有什么需要我为您服务?顾客:你好!我想要一份……客服:先生,请先把您的会员卡号告诉我,好吗?顾客:1684614