tcav 谷歌大脑提出概念激活向量 助力神经网络可解释性研究

选自kd掘金
机器心脏编译
【tcav 谷歌大脑提出概念激活向量 助力神经网络可解释性研究】参与:李诗梦、陆
最近,Google Brain Team发表了一篇论文,提出了一种称为概念激活向量的新方法,为深度学习模型的可解释性提供了新的视角。
可解释性仍然是现代深度学习应用中最大的挑战之一。最近在计算模型和深度学习方面取得了很大的进展,并且已经创建了非常复杂的模型,这些模型可以包括数千个隐藏层和数千万个神经元。虽然创建高级深度神经网络相对简单,但理解如何创建这些模型以及如何使用知识仍然是一个挑战。最近,Google Brain团队发表了一篇论文《超越特征归因的可解释性:用概念激活向量进行定量测试》,提出了一种新的方法,称为“概念激活向量”,为深度学习模型的可解释性提供了一个新的视角。
论文地址:https://arxiv.org/pdf/1711.11279.pdf
GitHub地址:https://github.com/tensorflow/tcav
可解释性和准确性
要理解CAV技术,需要理解深度学习模型可解释问题的本质。在这一代深度学习技术中,模型的准确性和可解释性之间存在永久的冲突。可解释性与准确性的冲突,也是实现复杂知识任务与如何实现这些任务的冲突。知识与控制、性能与可解释性、效率与简洁性……这些问题都可以通过权衡准确性与可解释性来解释。
你想要最好的结果还是想了解这些结果是如何产生的?这是数据科学家在每个深度学习场景中都必须回答的问题。许多深度学习技术本质上是复杂的。虽然他们的结果在许多情况下是准确的,但很难解释。如果我们画出一些著名的深度学习模型的可解释性和准确性,我们可以得到:

tcav 谷歌大脑提出概念激活向量 助力神经网络可解释性研究


文章图片

深度学习模型的可解释性不是一个单一的概念,而是可以跨多个层次理解的:

tcav 谷歌大脑提出概念激活向量 助力神经网络可解释性研究


文章图片

为了解释上图中定义的各个层次的模型,需要一些基本的构建模块。在最近的一篇文章中,谷歌研究人员概述了他们认为解释该模型所需的基本构件。
谷歌将可解释性原则总结如下:
了解隐藏层的作用:深度学习模型中的大部分知识都是在隐藏层中形成的。要解释深度学习模型,必须从宏观角度理解不同隐藏层的功能。
理解节点是如何被激活的:可解释性的关键不是理解网络中单个神经元的功能,而是理解在同一个空位置被一起激活的相互连接的神经元群。通过将网络分成相互连接的神经元组,可以从更简单的抽象层面理解该函数。
理解概念是如何形成的:深度神经网络如何形成一个单一的概念,可以组装成最终的输出是另一个关键的可解释的构建块。
这些原则是谷歌新方法CAV的理论基础。
概念激活向量
如前所述,一般的可解释方法应该是根据深度模型考虑的输入特征来描述预测结果。一个经典的例子是逻辑回归分类器,它通常将分类器中的系数权重解释为每个特征的重要性。然而,大多数深度学习模型无法对应人类容易理解的高级概念。此外,模型的内在价值似乎不可理解。虽然显著图等技术可以有效衡量特定像素区域的重要性,但它们无法对应更高级别的概念。
CAV的核心思想是度量模型输出中概念的相关性。对于一个概念,CAV是概念实例集值方向的向量。在他们的论文中,谷歌研究团队还提到了一种新的线性可解释方法,称为TCAV,它使用方向导数来量化模型预测对CAV学习的底层高级概念的敏感性。从概念上讲,定义TCAV有四个目标:

推荐阅读