机器学习正在导致“科学危机”|界面新闻

文|新智元

编辑|三石

警告：机器学习导致了一场“科学危机”！

目前，许多科学家用机器学习技术来分析数据等，但其产生的结果有时是具有误导性的，而且往往是完全错误性的。

来自休斯顿莱斯大学的Genevera Allen博士说，这种系统使用的增加导致了一场“科学危机”。

她警告科学家们：

如果科学家们不对机器学习技术进行改进，就等同于浪费时间和金钱。

采用机器学习技术来分析处理已有的数据集像是一股热潮，从生物医学到天文学，比比皆是。而且这些数据集往往“体量”庞大、价格昂贵。

“可复制性危机”

虽然Allen博士发出了这样的警告，但是根据她们的说法，团队所提出的答案可能不完全是正确的：

因为软件识别的模式只存在于数据集中，而不存在于现实世界中。

Allen博士表示，有缺陷的机器学习正在制造一场“科学危机”

Allen博士说：

通常情况下，先使用机器学习技术并产生了一定结果的研究，往往不会发现它是错误的。

直到其他人在将这些技术应用于更大的数据集中，然后产生的结果与前人的结果完全不同，这时人们才会惊呼：“天哪！这两项实验结果完全不一致！”

目前，科学界普遍承认存在可复制性危机。我敢说，其中很大一部分原因确实来机器学习技术在科学研究中的使用。

科学上的“可复制性危机”指的是当另一组科学家尝试同样的实验时，研究结果没有被重复。这意味着最初的结果是错误的。一项分析表明，世界上85%的生物医学研究都是徒劳的。

这是一场已经持续了20年的危机。

这场危机之所以会出现，是因为实验的设计不够完美，无法确保科学家们不会自欺欺人——只想得到自己想要的结果。

具有缺陷的模式

Allen博士表示，机器学习系统和大数据集的使用加速了这场危机。

这是因为机器学习算法专门用于在数据集中查找“有趣”的东西。因此当它们搜索大量数据时，将不可避免地找到一种模式。

真正的挑战在于，我们真的可以相信这些“发现”吗？

那些所谓的科学发现，能够代表真正的科学吗？它们是可重复的吗？若是给定一个额外的数据集，运用同样的方法，是否会得到相同的结果呢？不幸的是，事实往往并非如此。

机器学习也应用于生物医学研究

Allen博士正与休斯顿贝勒医学院的一组生物医学研究人员合作，以提高他们研究结果的可靠性。

她正在开发下一代机器学习和统计技术，这些技术不仅可以筛选大量数据进行“发现”，还可以报告结果的不确定性及其可能的重复性。

她告诉与其共事的科学家：“收集这些数据集是非常昂贵的，论文的发表可能会需要更长的时间，但是你们的成果是能够经得起时间的考验的！”

“这将为科学家节省资金。更重要的是，可以保障科学不会按着这些错误的方向发展。”

来源：BBC