1. 可信人工智能
最近人工智能的话题又火热了起来,关于人工智能所给出的内容也引起了很多争议。我们希望自己所使用的 AI 是可信的。人类对于 AI 的信任程度和满意程度是基于人类视角出发的,也许会涉及到用户的个人情感和能力。从技术角度出发,AI 的可信可以从以下几个角度进行评估:
-
鲁棒性。一般而言,鲁棒性是指算法或系统处理执行错误、错误输入或看不见的数据的能力。鲁棒性是影响人工智能系统在实证环境中性能的重要因素。缺乏健壮性还可能导致系统出现意外或有害行为,从而降低其安全性和可信度。术语鲁棒性适用于多种情况:
- 数据,考虑数据在不同场景下的多样化分布的情况下训练 AI 模型。
- 算法,人们普遍认为,人工智能模型可能容易受到恶意攻击。在各种形式的攻击中,对抗性攻击及其防御近年来引起了学术界和工业界的关注。
- 系统,在现实的 AI 产品中,还应仔细考虑针对非法输入的系统级鲁棒性。
- 泛化性。泛化一直是机器学习模型中的一个关注点。它代表了从有限的训练数据中提炼知识以对未见数据做出准确预测的能力。一方面,泛化要求 AI 系统对它们未受过训练的领域或分布上的真实数据进行预测,另一方面,AI 模型应该能够进行概括,而无需为各个领域详尽地收集和注释大量数据,从而使 AI 系统在广泛应用中的部署更加经济实惠和可持续。
-
透明性与可解释性。可解释性旨在理解 AI 模型如何做出决策 。从科学研究的角度来看,理解人工智能系统中数据、参数、过程和结果的所有内在机制是有意义的。这些机制还从根本上决定了 AI 的可信度。从构建人工智能产品的角度来看,对可解释性存在各种实际需求。对于像银行高管这样的操作员来说,可解释性有帮助了解 AI 信用系统以防止其中的潜在缺陷。相关研究将可解释性分为两个层次来解释:
- 模型可解释性设计。在过去半个世纪的机器学习研究中,设计了一系列完全或部分可解释的 ML 模型。代表包括线性回归、决策树、KNN、基于规则的学习器、广义加性模型(GAM)和贝叶斯模型。可解释模型的设计仍然是 ML 中的一个活跃领域。
- 事后模型可解释性。尽管上述传统模型具有良好的可解释性,但更复杂的模型在最近的工业 AI 系统中表现出了更好的性能。由于相关方法仍不能从整体上解释这些复杂模型,研究人员转而求助于事后解释。它通过分析模型的输入、中间结果和输出来处理模型的行为。对于深度学习模型,如 CNN 或transformer,检查中间特征是一种广泛使用的解释模型行为的方法。
- 公平性。在开发和应用 AI 系统的过程中,偏差可能有多种形式,例如数据偏差、模型偏差和程序偏差。偏见通常表现为基于受保护的信息(例如,性别、种族和民族)对不同人群的不公平待遇。尽管在不同场景下对于公平没有统一的定义,但是减少算法模型的偏见依然可以提高用户对于使用 AI的信心。
-
隐私保护。隐私保护主要是指防止未经授权使用可以直接或间接识别个人或家庭身份的数据。对隐私保护的承诺被认为是决定人工智能系统可信度的重要因素。学界针对隐私泄露问题提出了多种针对性的保护方法,最常见的为基于差分隐私和基于联邦学习的隐私保护方法。
上述内容多少显得有些泛泛而谈,具体到技术上应该如何实现提升模型的可信度呢?由于时间和精力有限,这里只总结了可解释和不确定性估计的相关内容。
不确定性估计:如何实现可信 AI:不确定性估计
2. 模型可解释性
从工业需求来看,由于自动驾驶、医疗保健、刑事司法、金融服务等领域的安全和社会问题,模型的可解释性有时比准确性等其他指标更重要。
可解释性一词对应到英文有两种说法:interpretablilty 和 explainability,两者的区别在于解释的对象不同(只是针对这两个单词作为“可解释模型”出现在论文里的情况)。Interpretability 指的是可以通过模型内部机制或者参数,来理解模型如何进行预测的能力,即模型本身是可解释的、可以理解的。Explainability 指的是使用外部辅助工具或技术来描述一个模型预测背后的逻辑或推理的能力,也就是人类来解释模型,模型本身不提供解释。
举个例子,线性回归模型是 interpretable,因为我们可以通过观察系数看到每个输入特征是如何影响输出的。神经网络模型不是 interpretable,因为它有许多隐藏层和非线性激活,使我们很难追踪每个输入特征如何影响输出。然而,如果我们使用特征重要性、saliency map等技术来说明神经网络模型是如何进行预测的,那么它就是 explainable。
进一步可以引申出内在可解释(Intrinsic )和事后可解释(post hoc)。内在可解释性是指结构被认为可解释的机器学习模型,例如线性回归、逻辑回归和决策树。事后解释性是指解释方法在模型训练后的应用。事后方法也可以应用于本质上可解释的模型。例如,可以为决策树计算置换特征重要性。
事后可解释模型又可以分为模型特定和模型无关。模型特定的解释工具仅限于特定的模型。模型无关的工具可用于任何机器学习模型,并在模型经过训练(事后)后应用。这些模型无关方法通常无法访问模型内部信息(例如权重或结构信息),而是通过分析特征输入和输出对来工作。
模型无关方法可以进一步分为全局方法与局部方法。全局方法通过利用关于模型、训练和相关数据的整体知识,专注于模型的内部,从总体上解释模型的行为。局部解释方法适用于模型的单一结果。
2.1 全局模型无关方法
一些全局方法,包括:
部分依赖图(PDP)是显示的是边缘化其他输入特征时,模型作为函数得到目标值和一组感兴趣的输入特征之间的关系。PDP的假设是感兴趣的输入特征都独立于其他特征,然而实际场景中往往不是这样的;
累积局部效应图(ALE)是解决了当特征具有依赖性时,PD出现的偏差。ALE的思想大致就是估计一个小窗口内的变化,然后累加所有小窗口,看输入对于输出的影响;
特征交互作用(Feature interaction, H-statistic)量化了预测在多大程度上是特征联合作用的结果;
互换特征的重要性(Permutation feature importance),随机打乱时预测准确度降低程度的度量,衡量特征的重要性;
全局代用模型(Global surrogate models),用一个更简单的模型代替原始模型进行解释。
2.2 局部模型无关方法
个体条件期望曲线(individual conditional expectation curves, ICE)是描述了目标函数和感兴趣特征之间的依赖关系,与PDP不同的是,ICE对每个样本在预测结果上对特征的依赖都可视化了出来。
局部替代模型 (LIME) 通过用局部可解释的替代模型替换复杂模型来解释模型的预测。它通过调整特征值来修改单个数据样本,并观察其对输出的影响。LIME的输出是一组解释,代表每个特征对单个样本预测的贡献。
反事实解释(counterfactual explanation)通过检查需要更改哪些特征来实现预期的预测,从而解释预测结果。假如现在一组输入得到了结果A(比如贷款不被模型通过),反事实的期望结果是B(贷款通过),我们希望尽可能小地改变输入特征以得到预期的结果(比如换个银行)。
Shapley 值是一种归因方法,可以将预测公平地分配给各个特征。Shapley 值是特征值在所有可能的组合中的平均边际贡献。
SHAP 是另一种计算 Shapley 值的方法,是一种解释个人预测的方法。SHAP是基于博弈理论上的最优Shapley值。但也有人提出了基于跨数据的 Shapley 值组合的全局解释方法。
LIME 和 Shapley 值是归因方法,因此单个实例的预测被描述为特征效果的总和。其他方法,例如反事实解释,是基于示例的。
2.3 神经网络的可解释性
上面的方法大都是使用在机器学习方法上的,当然也可以把一些模型无关的方法用在神经网络上。现在已经有很多针对于神经网络的解释方法。
像素归因
像素归因方法可以根据baseline设置分为:
纯梯度归因(gradient-only method):像素的变化是否会改变预测。例如 Vanilla Gradient 和 Grad-CAM。解释是:如果我要增加像素的颜色值,预测的类别概率将上升(对于正梯度)或下降(对于负梯度)。梯度的绝对值越大,表示该像素变化的效果越强。关于CAM和Grad-CAM可以看 特征型可视化 GradCAM。
路径归因方法:将当前图像与baseline进行比较,baseline图像可以是一张全灰图像,也可以是一个图像的分布。对于路径归因方法,解释总是相对于baseline进行的:实际图像和基线图像的分类分数之间的差异归因于像素。参考图像(分布)的选择对解释有很大影响。通常的假设是使用“中性”图像(分布)。此类别包括模型特定的基于梯度的方法,例如 Deep Taylor 和 Integrated Gradients,以及与模型无关的方法,例如 LIME 和 SHAP。
Integrated Gradients(IG) 满足两个可解释性公理:1) 灵敏度,其中对于每个期望的输入 和baseline 在一个特征上不同但具有不同的预测,这个不同的特征应该被赋予非零的归因; 2) 实现不变性,它指出如果两个网络的输出对于所有输入都相等,则它们在功能上是等价的。
对于一个给定的输入,函数映射表示为F,IG计算在不同尺度上相对于零尺度的baseline 的梯度,然后使用Gauss-Legendre正交来近似梯度的积分。
像素归因方法的优点是直观易懂,可以进行可视化,缺点是缺少定量的分析,在一些情况下会变得相当不可靠(比如向所有输入数据添加一个恒定的偏移量),以及我们很难知道可视化出来的解释是否是正确的。
概念检查
基于特征归因的方法存在着一些局限性,比如单个像素通常没什么意义,表达能力受限等。基于概念的方法可以检测嵌入在网络学习的潜在空间中的那个概念。换句话说,基于概念的方法可以产生不受神经网络的特征空间限制的解释。
TCAV(Testing with Concept Activation Vectors)量化某一(给定的)概念对于模型分类结果的重要程度。例如,它可以告诉你“斑马”的预测有多敏感于“条纹”的存在。TCAV的核心思想是使用概念激活向量(CAVs),它们是某个概念在神经网络的激活空间中的数字表示。
记 CAV 为,其中C为概念, 为神经网络。需要两个数据集,一个是包括特征C的概念数据集,另一个是随机数据集。然后训练一个二元分类器,区分概念集生与随机集。这个经过训练的二元分类器的系数向量就是 CAV。我们可以通过计算单位 CAV 方向的预测的方向导数来衡量其“概念敏感性”:
从而得到一个 -1 到 1之间的分数,反映了模型对某个概念的敏感程度分数越高,说明模型越依赖于该概念进行分类;分数越低,说明模型越不关注该概念。
TCAV需要对整个类别计算整体概念敏感性,方法是计算具有正概念敏感性的输入与一个类别的输入数量的比率
TCAV 的优点在于不需要用户有太多的机器学习专业知识,只需要定义一些感兴趣的概念。TCAV可以适应不同的模型和数据集,用户可以研究任何概念,只要该概念可以由其概念数据集定义即可。TCAV可以提供概念的全局解释,有利于提高模型性能。
缺点在于TCAV需要数据和时间,以及额外的标注工作;神经网络较浅时表现不佳;对于更加抽象的概念,TCAV不能捕捉到更加复杂的交互。
其他基于概念的方法有:
基于概念的自动解释(Automated Concept-based Explanation,ACE)可以被看作是TCAV的自动版本。ACE通过一个类别的图像集,根据图像片段的聚类自动生成概念。
概念瓶颈模型(Concept bottleneck models ,CBM)是内在可解释神经网络。CBM类似于编码器-解码器模型,CBM的前半部分将输入映射为概念,后半部分使用映射的概念来预测模型输出。然后,瓶颈层的每个神经元的激活代表了一个概念的重要性。此外,用户可以操纵瓶颈层的神经元激活来生成模型的反事实解释。
概念白化(Concept whitening ,CW)是另一种产生内在可解释图像分类器的方法。为了使用CW,人们用CW层代替了归一化层,如批量归一化层。因此,当用户想把他们预先训练好的图像分类器转变为内在可解释的,同时保持模型的性能时,CW就非常有用。
对抗性样本
一个对抗性的样本是一个具有小的、有意的特征扰动的实例,导致机器学习模型做出错误的预测。对抗性样本是反事实的,目的是欺骗模型,而不是解释它。一个例子就是通过在输入图像添加噪声,使模型的输出改变,但是人类肉眼却无法分辨输入的区别。
深度学习的可解释性依然有很多有趣的方向(充满了未解之谜),但从大方向来看,可解释性能够帮助我们实现更好的人工智能。
2.4 医学影像分析中的临床可解释AI
可解释性一直是AI在医疗领域的应用的一个挑战。[8]提出了临床可解释AI的指南,包括:
- 可理解性。解释的格式和上下文应该易于临床用户理解。用户无需具备机器学习、人工智能或编程方面的技术知识即可解读说明。
- 医学相关。为使人工智能具有临床效用,解释信息应与医生的临床决策模式相关,并能支持其临床推理过程。
- 真实性。解释应如实反映模型决策过程,这是面向临床的解释的基本要求。
- 信息合理。用户对解释合理性的判断可以让用户了解有关 AI 决策质量的信息。
- 计算高效。在临床上,不应该花费太多时间等待解释。
参考:
[1] Li B, Qi P, Liu B, et al. Trustworthy ai: From principles to practices[J]. ACM Computing Surveys, 2023, 55(9): 1-46.
[2] 可信人工智能白皮书 - 中国信息通信研究院
[3] X, XIONG H, LI X, et. Interpretable deep learning: interpretation, interpretability, trustworthiness, and beyond[J]. Knowledge and Information Systems, Knowledge and Information Systems, 2022, 64(12): 3197–3234.
[4] Mishra, P. (2022). Model Explainability and Interpretability. In: Practical Explainable AI Using Python. Apress, Berkeley, CA. https://doi.org/10.1007/978-1-4842-7158-2_1
[5] Christoph Molnar, Interpretable Machine Learning
[6] PDP和ICE
[7] 深度学习的可解释性方向的研究是不是巨坑? - 知乎 (zhihu.com)
[8] Weina Jin, Xiaoxiao Li, Mostafa Fatehi, Ghassan Hamarneh,
Guidelines and evaluation of clinical explainable AI in medical image analysis,Medical Image Analysis,Volume 84,2023,102684,ISSN 1361-8415,https://doi.org/10.1016/j.media.2022.102684.
[9] 可解释性之积分梯度算法(Integrated Gradients)