机器学习与统计学的争论,有意义吗?
|
(原标题:机器学习与统计学的争论,有意义吗?)
(雷锋网出品) 统计学和机器学习之间是否泾渭分明一直学界争论的焦点。 有的学者认为机器学习只是统计学披了一层光鲜的外衣。而另一些讨论则认为涉及使用逻辑回归或者广义线性模型(GLM)的可以称作机器学习;否则就不是。 还有一些观点认为:是否执行元分析或许是区分两个领域的一个标准。 但,争论两者之间的边界,真的有意义吗?如果对这个问题进行严肃地思考,或许我们会发现,答案是否定的。 麻省理工Sam Finlayson 博士指出“过去关于机器学习和统计学之间的讨论很大程度上没有切中要害,因为这些讨论要么忽略了历史背景、要么‘回归方法’归属模棱两可”,因此这种争论事实上毫无意义。 1、历史背景的忽略:“机器学习”术语的诞生并不是为了区分统计学
达特茅斯会议期间合影数千年来,研究者们一直梦想建造“智能”设备,但“人工智能”一词却是到1956年才出现。John McCarthy 在当时的达特茅斯会议上提出这个术语,并将人工智能定义为:制造智能机器的科学和工程。 至此之后,人工之智能术语使用并流行到了今天。 而McCarthy能在会议上说服参会者使用这一术语很大程度上因为这个定义本身就是非常模糊的。 在那个年代,致力于“智能”的科学家们的研究视角还未转向“数据驱动”,而是专注于自动机理论、形式逻辑和控制论等东西。 也就 是说McCarthy当时想要创造一个术语来容纳所有这些范式,而不是倾向于任何特定的方法。 正是在这种情况下,Arthur Samuel(达特茅斯会议的与会者之一)在1959年提出了“机器学习”一词,并将其定义为一种研究领域,即不进行显式编程就可让计算机进行学习的研究领域。 之所以有此定义是因为Samuels和他的同事们希望通过让计算机拥有识别能力,并随着时间的推移不断改进这种能力来使得计算机变得更加“智能”。 在今天看来,这种研究方法似乎并不陌生,但先驱们却花费了数十年才让其成为AI研究的主导范式。 从当时研究者的意图来看,机器学习是为了描述计算机的设计过程而创建的,该过程利用统计方法来改善性能。也就是说该术语是旨在与构建智能机器的非数据驱动方法形成对比,不是为了与统计学形成对比。 毕竟统计学重点使用数据驱动的方法为人类提供有效信息。 另一个被普遍认可的机器学习的定义来自于Tom M.Mitchell 在1997年出版的教科书,他在书中提到:“机器学习领域涉及如何让计算机程序通过经验而自动改进的一类问题”。 另外,书中还有一个半正式定义:对于某类任务 T 和性能度量 P,计算机程序从经验 E 中学习,然后它在任务 T 中的性能 P 随着经验 E 的提高而提高。 2、关于谁“拥有”回归的争论没有抓住重点
当前许多人试图在统计方法和机器方法之间用二分法强硬的划定界限,但这显然是一种独裁的专制。 有的人特别执着的认为:回归驱动的研究方法是统计学专属,无论如何不能称作机器学习。 此类观点其实比目前“逻辑回归等于计量经济学”的观点还要愚蠢,两者同样挑起了激烈的争论。 六十年来机器学习社区一直在致力于“更好的计算机”,而并不关心是奇妙的方法还是统计数据哪个更优。 这也是为什么大多数教授在机器学习课程教学的时候,花大精力来教授广义线性模型及其变体。 所以说统计学在机器学习和人工智能的研究背景下是非常有意义的,机器学习术语涉及不同的方法,并致力于让“程序”变得智能。坦率地说,任何段位的统计学家都不能断言“脱离实际研究背景的统计学方法是有用的”。 回归方法归属之争其实在很大程度上同时低估了机器学习和统计,原因大致可以归纳为以下四个: 1.限制了经典统计方法在构建计算机程序方面所能发挥的核心作用; 2.忽略了机器学习对统计学的影响,实际上人工智能和计算机学科很大程度促进了统计学的复兴。例如Judea Pearl的因果关系开辟了新的统计学范式; 3.统计学和机器学习之间“强硬”的二分法在一定程度上弱化了建模决策中的重要信息,并且这种分类有时候毫无意义。 4.当前机器学习和统计学的顶级研究学者大多同时属于这两个领域。 其实,当前有很多研究都突出了统计学家与机器学习研究人员的丰富互动,例如著名学者Rob Tibshirani和Trevor Hastie没有纠结于方法论的边界线,而是利用机器学习研究人员开发的工具,从而帮助完善统计学领域的研究。并不是说Hastie和Tibs发明了新方法,而是意味着这些方法已经影响了统计学家和机器学习研究人员的日常工作。 3、许多“争论”在开始之前就已注定失败
目标的不同导致了方法和文化的差异,这也是为什么“机器学习”一词的含义自诞生以来发生了如此大的变化。 语言中的脱节让许多“争论”在开始之前就已注定失败。 如上文所述,机器学习这一研究领域之所以得以创立,便是由于计算机科学家试图创建和理解智能计算机系统,至今依旧如此。 主要的机器学习应用包括语音识别、计算机视觉、机器人/自动系统、计算广告、监控、聊天机器人等等。在尝试解决这些问题的过程中,机器学习研究者基本总是先从尝试经典的统计学方法开始,例如相对简单的广义线性模型(GLM)。 当然,长年累月,计算机科学家也不断提出了新的方法,让机器学习这一工具日益强大。 与其他任意背景下的进化一样,用于机器学习的统计学方法,其进化史也是在“物竞天择”的压力下所形成的。与统计学家相比,机器学习研究者往往很少关注:理解算法背后所执行的所有具体动作。这一点其实非常重要,并且越来越重要。
雷锋网制图 他们通常最关注的是模型误差。这样就导致机器学习研究者开发的方法往往会更加灵活,甚至不惜以牺牲可解释性为代价来实现更高的灵活性。这种离散式的进化,就很容易让机器学习和完全基于方法的统计学研究之间的界限变得模糊。 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |





