清华2020人工智能报告第一期!五大维度揭秘机器学习技术【附下载】| 智东西内参
机器学习已经成为了当今的热门话题,但是从机器学习这个概念诞生到机器学习技术的普遍应用经过了漫长的过程。在机器学习发展的历史长河中,众多优秀的学者为推动机器学习的发展做出了巨大的贡献。 从 1642 年 Pascal 发明的手摇式计算机,到 1949 年 Donald Hebb 提出的赫布理论——解释学习过程中大脑神经元所发生的变化,都蕴含着机器学习思想的萌芽。事实上, 1950 年图灵在关于图灵测试的文章中就已提及机器学习的概念。到了 1952 年, IBM 的亚瑟·塞缪尔(Arthur Samuel, 被誉为“机器学习之父”)设计了一款可以学习的西洋跳棋程序。 塞缪尔和这个程序进行多场对弈后发现,随着时间的推移, 程序的棋艺变得越来越好。 塞缪尔用这个程序推翻了以往“机器无法超越人类,不能像人一样写代码和学习”这一传统认识。并在 1956 年正式提出了“机器学习”这一概念。 本期的智能内参,我们推荐清华人工智能研究院的研究报告《人工智能之机器学习》,从机器学习的发展史、技术特点、人才概况、行业应用和未来趋势五大维度剖析机器学习技术。如果想收藏本文的报告(人工智能之机器学习),可以在智东西(公众号:zhidxcom)回复关键词“nc427”获取。 本期内参来源:清华人工智能研究院 原标题: 《人工智能之机器学习 》 作者:未注明 一、什么是机器学习?对机器学习的认识可以从多个方面进行,有着“全球机器学习教父”之称的 Tom Mitchell 则将机器学习定义为:对于某类任务 T 和性能度量 P,如果计算机程序在 T 上以 P衡量的性能随着经验 E 而自我完善,就称这个计算机程序从经验 E 学习。 普遍认为,机器学习(Machine Learning,常简称为 ML)的处理系统和算法是主要通过找出数据里隐藏的模式进而做出预测的识别模式,它是人工智能(Artificial Intelligence,常简称为 AI)的一个重要子领域。 从机器学习发展的过程上来说,其发展的时间轴如下所示:
▲机器学习发展历程 机器学习算法可以按照不同的标准来进行分类。比如按函数 f (x, θ)的不同, 机器学习算法可以分为线性模型和非线性模型;按照学习准则的不同,机器学习算法也可以分为统计方法和非统计方法。但一般来说,我们会按照训练样本提供的信息以及反馈方式的不同,将机器学习算法分为监督学习、无监督学习和强化学习。
▲机器学习分类 1980 年机器学习作为一支独立的力量登上了历史舞台。在这之后的 10 年里出现了一些重要的方法和理论,典型的代表是:分类与回归树(CART, 1984) 、 反向传播算(1986)、卷积神经网络(1989)。 从 1990 到 2012 年,机器学习逐渐走向成熟和应用,在这 20 多年里机器学习的理论和方法得到了完善和充实,可谓是百花齐放的年代。代表性的重要成果有:支持向量机(SVM, 1995) 、 AdaBoost 算法(1997)、 循环神经网络和 LSTM(1997)、 流形学习(2000)、 随机森林(2001) 。 机器学习代表算法包括: 线性回归; 分类与回归树(CART); 随机森林(Random Forest); 逻辑回归; 朴素贝叶斯(Naive Bayesian); k 最近邻(kNN); AdaBoost; K-均值算法(K-Means); 支持向量机(SVM); 人工神经网络 ANN(Artificial Neural Network); 1、 生成对抗网络及对抗机器学习生成对抗网络(Generative Adversarial Networks, GAN) 是用于无监督学习的机器学习模型,由 Ian Goodfellow 等人在 2014 年提出, 由神经网络构成判别器和生成器构成,通过一种互相竞争的机制组成的一种学习框架, GAN 在深度学习领域掀起了一场革命。 传统的生成模型最早要追溯到 80 年代的 RBM,以及后来逐渐使用深度神经网络进行包装的AutoEncoder, 然后就是现在称得上最火的生成模型 GAN。
▲GAN 发展脉络 对抗机器学习是一个机器学习与计算机安全的交叉领域。对抗机器学习旨在给恶意环境下的机器学习技术提供安全保障。由于机器学习技术一般研究的是同一个或较为稳定的数据分布,当部署到现实中的时候,由于恶意用户的存在,这种假设并不一定成立。比如研究人员发现,一些精心设计的对抗样本(adversarial example) 可以使机器学习模型失败输出正确的结果。针对模型的攻击问题,我们主要分为两大类,就是从训练阶段和推理(inference)阶段来进行讨论。 训练阶段的攻击。 训练阶段的恶意攻击(Training in Adversarial Settings) ,主要的目的就是针对模型的参数进行微小的扰动,从让而模型的性能和预期产生偏差。这样的行为主要是通过数据投毒来完成的。 推理阶段的攻击(Inference in Adversarial Settings)。当训练完成一个模型之后,这个模型就可以看做一个 BOX,那么这个盒子中,对于我们如果是透明的话,我们就把它当成是“白盒”模型,如果这个盒子中,我们什么都看不了,我们就把它当成“黑盒”模型。(我们在这个部分不讨论灰盒模型)那么针对白盒和黑盒的进攻手段自然是不同的,但是最终的目的都是希望能对模型的最终结果产生破坏,与预期脱离。其影响力以及攻击的构造粒度也是有所不同的。 2、自动机器学习自动机器学习(AutoML)旨在通过让一些通用步骤(如数据预处理、模型选择和调整超参数) 自动化,来简化机器学习中生成模型的过程。 AutoML 是指尽量不通过人来设定超参数,而是使用某种学习机制,来调节这些超参数。这些学习机制包括传统的贝叶斯优化,多臂老虎机(multi-armed bandit),进化算法,还有比较新的强化学习。自动机器学习不光包括大家熟知的算法选择,超参数优化,和神经网络架构搜索,还覆盖机器学习工作流的每一步。自动机器学习的用处就在于此,它帮助研究人员和从业者,自动构建机器学习管道,将多个步骤及其对应的多个选项集成为工作流,以期快速找到针对给定问题的高性能机器学习模型。 AutoML 的基本过程如下图所示:虚框是配置空间,包括特征、超参数和架构;左边训练数据进入,上面的优化器和它相连,定义的测度发现最佳配置,最后出来的是模型;测试数据在模型中运行,实现预测的目的。 (编辑:52刷机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



