正在阅读:

机器学习正在导致“科学危机”

扫一扫下载界面新闻APP

机器学习正在导致“科学危机”

来自休斯顿莱斯大学的Genevera Allen博士发出警告:若不改进技术,机器学习系统使用量的激增将导致一场“科学危机”。

文|新智元

编辑|三石

警告:机器学习导致了一场“科学危机”!

目前,许多科学家用机器学习技术来分析数据等,但其产生的结果有时是具有误导性的,而且往往是完全错误性的。

来自休斯顿莱斯大学的Genevera Allen博士说,这种系统使用的增加导致了一场“科学危机”。

她警告科学家们:

如果科学家们不对机器学习技术进行改进,就等同于浪费时间和金钱。

采用机器学习技术来分析处理已有的数据集像是一股热潮,从生物医学到天文学,比比皆是。而且这些数据集往往“体量”庞大、价格昂贵。

“可复制性危机”

虽然Allen博士发出了这样的警告,但是根据她们的说法,团队所提出的答案可能不完全是正确的:

因为软件识别的模式只存在于数据集中,而不存在于现实世界中。

Allen博士表示,有缺陷的机器学习正在制造一场“科学危机”

Allen博士说:

通常情况下,先使用机器学习技术并产生了一定结果的研究,往往不会发现它是错误的。

直到其他人在将这些技术应用于更大的数据集中,然后产生的结果与前人的结果完全不同,这时人们才会惊呼:“天哪!这两项实验结果完全不一致!”

目前,科学界普遍承认存在可复制性危机。我敢说,其中很大一部分原因确实来机器学习技术在科学研究中的使用。

科学上的“可复制性危机”指的是当另一组科学家尝试同样的实验时,研究结果没有被重复。这意味着最初的结果是错误的。一项分析表明,世界上85%的生物医学研究都是徒劳的。

这是一场已经持续了20年的危机。

这场危机之所以会出现,是因为实验的设计不够完美,无法确保科学家们不会自欺欺人——只想得到自己想要的结果。

具有缺陷的模式

Allen博士表示,机器学习系统和大数据集的使用加速了这场危机。

这是因为机器学习算法专门用于在数据集中查找“有趣”的东西。因此当它们搜索大量数据时,将不可避免地找到一种模式。

真正的挑战在于,我们真的可以相信这些“发现”吗?

那些所谓的科学发现,能够代表真正的科学吗?它们是可重复的吗?若是给定一个额外的数据集,运用同样的方法,是否会得到相同的结果呢?不幸的是,事实往往并非如此。

机器学习也应用于生物医学研究

Allen博士正与休斯顿贝勒医学院的一组生物医学研究人员合作,以提高他们研究结果的可靠性。

她正在开发下一代机器学习和统计技术,这些技术不仅可以筛选大量数据进行“发现”,还可以报告结果的不确定性及其可能的重复性。

她告诉与其共事的科学家:“收集这些数据集是非常昂贵的,论文的发表可能会需要更长的时间,但是你们的成果是能够经得起时间的考验的!”

“这将为科学家节省资金。更重要的是,可以保障科学不会按着这些错误的方向发展。”

来源:BBC

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

机器学习正在导致“科学危机”

来自休斯顿莱斯大学的Genevera Allen博士发出警告:若不改进技术,机器学习系统使用量的激增将导致一场“科学危机”。

文|新智元

编辑|三石

警告:机器学习导致了一场“科学危机”!

目前,许多科学家用机器学习技术来分析数据等,但其产生的结果有时是具有误导性的,而且往往是完全错误性的。

来自休斯顿莱斯大学的Genevera Allen博士说,这种系统使用的增加导致了一场“科学危机”。

她警告科学家们:

如果科学家们不对机器学习技术进行改进,就等同于浪费时间和金钱。

采用机器学习技术来分析处理已有的数据集像是一股热潮,从生物医学到天文学,比比皆是。而且这些数据集往往“体量”庞大、价格昂贵。

“可复制性危机”

虽然Allen博士发出了这样的警告,但是根据她们的说法,团队所提出的答案可能不完全是正确的:

因为软件识别的模式只存在于数据集中,而不存在于现实世界中。

Allen博士表示,有缺陷的机器学习正在制造一场“科学危机”

Allen博士说:

通常情况下,先使用机器学习技术并产生了一定结果的研究,往往不会发现它是错误的。

直到其他人在将这些技术应用于更大的数据集中,然后产生的结果与前人的结果完全不同,这时人们才会惊呼:“天哪!这两项实验结果完全不一致!”

目前,科学界普遍承认存在可复制性危机。我敢说,其中很大一部分原因确实来机器学习技术在科学研究中的使用。

科学上的“可复制性危机”指的是当另一组科学家尝试同样的实验时,研究结果没有被重复。这意味着最初的结果是错误的。一项分析表明,世界上85%的生物医学研究都是徒劳的。

这是一场已经持续了20年的危机。

这场危机之所以会出现,是因为实验的设计不够完美,无法确保科学家们不会自欺欺人——只想得到自己想要的结果。

具有缺陷的模式

Allen博士表示,机器学习系统和大数据集的使用加速了这场危机。

这是因为机器学习算法专门用于在数据集中查找“有趣”的东西。因此当它们搜索大量数据时,将不可避免地找到一种模式。

真正的挑战在于,我们真的可以相信这些“发现”吗?

那些所谓的科学发现,能够代表真正的科学吗?它们是可重复的吗?若是给定一个额外的数据集,运用同样的方法,是否会得到相同的结果呢?不幸的是,事实往往并非如此。

机器学习也应用于生物医学研究

Allen博士正与休斯顿贝勒医学院的一组生物医学研究人员合作,以提高他们研究结果的可靠性。

她正在开发下一代机器学习和统计技术,这些技术不仅可以筛选大量数据进行“发现”,还可以报告结果的不确定性及其可能的重复性。

她告诉与其共事的科学家:“收集这些数据集是非常昂贵的,论文的发表可能会需要更长的时间,但是你们的成果是能够经得起时间的考验的!”

“这将为科学家节省资金。更重要的是,可以保障科学不会按着这些错误的方向发展。”

来源:BBC

本文为转载内容,授权事宜请联系原著作权人。