可解释性 or 准确性？AI 模型一定不能两者兼得吗？

发布时间：2020-02-03 12:11:17 所属栏目：通讯来源：网络整理

导读：可解释性 or 准确性？AI 模型一定不能两者兼得吗？

上面的简单模型也许和许多其他最新的机器学习方法一样准确（Angelino et al., 2018）。在应用于其他数据集的许多不同类型的预测问题的机器学习方法中，也发现了相似的结果：可解释模型（研究中的小型线性模型或逻辑模型）的表现与更复杂的模型（黑盒）有相同的效果（Zeng et al., 2016）。似乎没有证据表明黑盒模型对犯罪风险预测会有所帮助。实际上，这些黑盒的缺点可能更明显，因为它们更难排查故障，更难信任和更难使用。

在一些医疗领域以及可以改变生命决策的许多其他高风险机器学习应用中，似乎也没有体现黑盒模型准确性的优势（例如在 Caruana et al., 2015; Razavian et al., 2015; Rudin & Ustun, 2018等论文中，作者都展示了具有可解释性条件的模型，这些模型的表现和不受约束的模型一样好）。

三、黑盒模型可能会掩盖无数潜在的严重错误

相反，黑盒模型可以掩盖无数潜在的严重错误（e.g., see Rudin, 2019）。即使在以深度神经中枢（最难解释的黑盒模型）为最先进技术的计算机视觉中，我们和其他科学家（e.g., Chen et al., 2019; Y. Li et al., 2017; L. Li, Liu, Chen, & Rudin, 2018; Ming, Xu, Qu, & Ren, 2019）已经找到了将可解释性条件添加到深度学习模型中的方法，从而使计算更加透明。即使对用于计算机视觉的深度神经网络，这些可解释性约束也不会以牺牲准确性为代价。

信任黑盒模型意味着你不仅要信任模型的方程式，而且也要信任它所基于的整个数据库。例如，在机器人和外科医生的场景中，在不知道2%和15%是如何计算出来的情况下，我们应该针对特定亚群患者的数据之间的相关性持怀疑态度。

我们所看到的每一个复杂度适中的数据集都存在缺陷。这些范围可以从大量的丢失数据（不是随机丢失）或者无法测量的数据混淆到数据集中的系统错误（例如药物治疗的错误编码），数据收集出现的问题，导致数据分布与最初的设想不一致。

黑盒模型在医疗领域中的一个常见问题是数据泄露，关于标签变量 y 的某些信息以通过查看变量的标题和描述变量这种你可能不会觉察的方式，潜入变量 x 中：有时你认为自己正在预测将来的事物，但你只是在探测过去发生的事情。在预测医疗结果时，机器可能会利用医生笔记中的信息，将这些信息在正式记录患者病情之前透露出来，因此错误地将其声明为成功的预测。

为了解决人们对黑盒模型不透明的普遍担忧，一些科学家试图对黑盒模型做出解释，提出假设，解释它们为什么会做出这样的决定。这种解释通常试图使用一个完全不同的模型来模拟黑盒的预测(可能使用不同的重要变量，掩盖了黑盒可能正在做的事情)，或者提供另一种统计，该统计信息提供了关于黑盒计算的不完整信息。这种解释是肤浅的，甚至是空洞的，因为它们夸大了黑盒的权威，而是认为黑盒是必要的。有时，这些解释是错误的。

例如，当 ProPublica 的记者试图为累犯预测专设的COMPA模型解释时（Angwin et al., 2016），他们似乎错误地认为，如果一个人可以建立一个近似于比较的线性模型，并依赖于种族、年龄和犯罪历史，那么COMPAS本身必须依靠种族。

但是，当有人使用类似 COMPAS 非线性模型时，该模型不再依赖种族（Rudin, Wang, & Coker, 2019），仅对历史犯罪和年龄有依赖性。这是一个关于黑盒的错误解释如何导致失控的例子。

也许，如果司法系统仅使用可解释的模型（我们和其他人已证明同样准确），那么 ProPublica 的记者将能够撰写不同的故事。例如，也许他们可能会写出这些分数的印刷错误是如何频繁发生的，而没有明显的方法来解决它们，导致司法系统中改变生活的决策意见不一致（see, e.g., Rudin et al., 2019）。

但是在2018年 NeurIPS 大会上，在挤满了刚刚选择机器人代替外科医师的专家的会议室里，播音员继续对比赛进行实况描述。 FICO 提供了房屋净值信贷额度（HELOC）数据集，其中包含来自数千名匿名人的数据，包括其信用记录的各个方面以及该人是否拖欠贷款。竞赛的目的是创建一个用于预测贷款违约的黑盒模型，然后解释黑盒。

有人认为，对于要求参赛者创建黑盒并进行解释的竞赛，问题实际上是必须有一个黑盒。但事实并非如此。早在2018年7月，当 Duke 团队收到数据时，并分析数据一周左右后，意识到可以在没有黑盒的情况下有效地分析 FICO 数据。

无论是对线性模型使用深层神经网络还是经典统计技术，我们都发现这两种方法之间的准确性误差不到1％，1%的误差是在数据随机抽样误差范围之内。即使在使用提供了可解释的模型的机器学习技术时，其准确性也与最佳黑盒模型准确性相差不多。

那时，我们也不知如何是好了。我们是否应该遵守规则，给法官们一个黑盒，我们是否应该遵守规则使用黑盒模型并向裁判解释它？还是我们应该提供透明、可解释的模型？换句话说，当你发现自己被迫陷入机器人与外科医生的两难抉择时，你该怎么办？

我们的团队决定，对于像信用评分这样重要的问题，我们不会为了解释就向评选团队提供黑盒。取而代之的是，我们创建了一个即使没有任何数学基础的人也能够理解的可解释的模型，我们认为该模型可分解为不同的微型模型，每个微型模型都可以独立被理解。

我们还为贷方和个人创建了一个额外的交互式在线可视化工具。在我们的网站上研究信用历史因素可以让人们了解哪些因素影响贷款申请决策，这种方式完全不需要黑盒。我们知道可能不会以这种方式赢得比赛，但我们需要提出更重要的事实。

四、AI 模型可兼得可解释性和准确性，只是尚未尝试而已

可能有人认为，在许多应用程序中，可解释的模型可能不如黑盒模型那么准确。毕竟，如果你可以建立一个准确的可解释模型，那么为什么还要使用黑盒呢？

但是，正如“可解释机器学习挑战”所揭示的那样，实际上，在许多应用程序中，人们并不试图构造一个可解释的模型，因为他们可能认为对于复杂的数据集，可解释的模型不可能像黑盒那么精确。或者，他们想将模型保留为专有模型。然后，人们可能会考虑是否可以为计算机视觉和时间序列分析构建可解释的深度学习模型（e.g., Chen et al., 2019; Y. Li et al., 2017; O. Li et al., 2018; Ming et al., 2019），那么标准假设应是可解释模型不存在，改为它们存在的假设，然后直到证明它们不存在为止。

此外，当科学家在构建模型时他们知道自己在做什么时，它们可以制造出更好的AI系统，来服务于依赖它们的人类。在这些情况下，所谓的准确性与可解释性之间的权衡被证明是谬论：具有更多可解释性的模型通常变得更准确（而不是更少）。

（编辑：52刷机网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页