机器学习与统计学的争论，有意义吗？

发布时间：2020-02-05 09:30:14 所属栏目：通讯来源：网络整理

导读：机器学习与统计学的争论，有意义吗？

此外，也导致不少统计学家并不了解机器学习的历史。因此毫不惊讶地，他们会热衷于采用任何其他的术语来定义机器学习领域，即便这种做法毫无必要。出于同样的道理，基于“使用”的严格划分现在变得非常复杂，实际上现在很多机器学习从业者，即便当他们仅仅是在应用机器学习方法来做纯粹的数据分析，而不是驱动计算机程序时，他们依旧会称他们是在做机器学习。

虽然从严格的历史意义上而言，这种说法并不对，但是我认为也无需指责这种做法，因为这可能是出于习惯、文化背景或者“认为这种说法听起来来很酷”的综合影响。

所以在现实中，人们用到“机器学习”这个术语时，往往指的与机器学习本身非常不同的其他事情。人们可能用它来表达：“我正在用统计学方法来让我设计的程序学习”或者“我正在设计可以部署到自动化系统中的数据分析”。

又或者表达的意思是：“我正在使用一个最初由机器学习社区开发的方法，如随机森林，来做统计学数据分析”。而更普遍的情况是，他们使用这个词是在说：“我自己是一个机器学习研究者，我就是在使用数据做机器学习研究，我怎么高兴就怎么说。”

实际上，这一术语的不同用法并不令人惊讶也不成问题，因而这仅仅是由于语言的进化而导致的结果。然而当另一群人——数据科学家群起而辩“一个特定的项目是否能纯粹地冠之以机器学习或者统计学，二者选其一”时，就非常滑稽了。

在我看来，“数据科学家”这一术语原本就是由机器学习和统计学交汇而成的。而当这一争论发生时，大家往往都带着各不相同、定义模糊、并且表达不清的假设参与争论，一开场便是争论这些词的意思。而随后他们几乎不会花时间去了解这些词的出处或者听对方真正要表达的是什么，而仅仅是相互之间隔空喊话，声音大然而却并不清晰。

4、这整场“争论”差不多就是在浪费时间

现在，让我们将这些真实的问题摆在桌面上来谈：如今有很多机器学习研究者（或者至少是机器学习爱好者）对统计学的理解尚有不足。有一部分人确实就是一位机器学习研究者，然而也有许多专业的统计学家有时候也会认为自己是机器学习研究者。

而更严重的现实情况是，机器学习研究的发展走得如此之快，并且常常在文化上与统计学领域脱节得如此之远，以至于我认为对于即便是非常杰出的机器学习研究者而言，对统计学的某些部分“重新发现”或者“重新发明”都非常普遍。

这是个问题，也是种浪费！最后，由于大量第三方应用研究者非常喜欢用“机器学习”这个术语：为了让论文显得更时髦而在论文中大量应用这一术语，即便现实中他们所谓的“机器学习”既不是构建自动化系统也没有使用机器学习领域提出的方法。

（雷锋网）我认为，所有这些问题的解决方法，就是让人们更多地意识到：大多数机器学习的数据方法实际上就存在于统计学中。无论这些方法是用到了数据分析中还是设计智能系统中，我们的首要任务是培养对统计学原理的深刻理解，而不是执拗于机器学习和统计学领域的划分是正确还是错误。

关于很多工作是机器学习还是统计学的无休止的争论，最终只会分散人们的注意力，让他们无法花更多精力来进行“如何通过正确匹配问题和特定的工具来很好地完成工作”的必要对话和交流——相对而言，这才是更重要的事。与此同时，人们固执己见地对统计学和机器学习方法错误的二分法，会让很多研究者进一步养成没有必要就不使用复杂方法的习惯，仅仅是为了让自己感觉像是在做“真正的机器学习”。

这也会直接导致，人们会为了让自己的工作在方法论上听起来更时髦，就肆无忌惮地把自己的工作称作机器学习。

统计计算的黄金时代，正在推动机器学习和统计学领域变得空前的紧密。当然，机器学习研究诞生于计算机科学体系，而当代的统计学家越来越多地依赖于计算机科学界几十年来开创的算法和软件栈。他们也越来越多地发现机器学习研究者所提出的方法的用处，例如高维度回归，这一点尤其体现在计算生物学领域。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页