模型与大脑以不同的“眼光”看待世界-钛媒体官方网站

图片来源@视觉中国

文 | 追问NextQuestion，作者 | 铸雪，编辑 | lixia

大脑利用感觉系统来感知和理解周围的环境，比如通过视觉识别物体，通过听觉辨别声音。人类感觉系统的奇特之处在于，对物体的识别具有不变性（invariance），不会受物体外观变化的影响，比如不论光线明暗，我们都能认出月台上父亲的身影。同样地，一段话不论是面对面说出，还是通过电话传递，语调不论是平铺直叙还是抑扬顿挫，我们都可以准确地听懂交流的内容。也就是说，大脑会忽略与核心特征无关的差异，通过一系列复杂转换，精准稳定地识别物体和声音。

神经科学工作者一直致力于构建一系列能重现大脑反应和行为的模型。而在众多计算机模型中，深度神经网络（deep neural network，DNN）模型具有与大脑感觉系统类似的层级结构，因此，人们尝试使用这类分层神经网络模型来模拟大脑的感知，将感官输入转化为与任务相关的表征。到目前为止，基于DNN的模型已成为性能最好的机器感知系统，同时也是大脑视觉和听觉系统领域的主要研究模型。如今，DNN模型在识别物体或声音方面，表现得如大脑一样出色。

但近期，麻省理工学院的研究者在Nature Neuroscience上发表的论文发现，这些模型似乎会“搭错神经”，对与目标无关的刺激作出同样的反应。进一步的研究表明，虽然在目标识别判断方面，DNN模型与人类感觉系统的表现类似，但它们的识别策略截然不同。DNN模型拥有自己独特的不变性，亦即它们会对在人类看来千差万别的刺激物作出相同的反应。

▷图注：论文封面。图源：nature neuroscience官网

一种行为检测方法

人工神经网络模型之所以能够复制生物感觉系统中的运算，是基于这样一种假设——这些模型的不变性反映的正是生物感觉系统中的不变性。但有研究发现，人类与模型之间存在着差异，它们的不变性似乎并不完全匹配。

为了确定DNN习得的不变性与人类感知的不变性是否相似，Jenelle Feather等人以执行分类任务的DNN模型为例，进行了深入探究。

目前，大多数感知系统的神经网络模型，都是为了完成单一的行为任务而训练的。如果该模型成功地再现了人类在某项任务中的不变性，那么它的同色异谱（metamer）*在该任务中应该也会产生与人类相同的行为判断。因为它们与介导判断的人类表征应该是无差别的。

*注：同色异谱的概念源于对人类感知的研究，描述的是有些颜色由不同波长的光组成，但看起来却完全相同。根据格拉斯曼定律，人的颜色视觉系统只能分辨颜色的明度、色调和彩度三个颜色属性，只要在视觉上对这三个颜色属性的感觉相同，就认为是相同的颜色，便可以相互替代，不必考虑它们的光谱组成究竟是否相同。在听觉方面也有类似的现象。比如，尽管两群昆虫发出的声音具有不同的声学细节，但人们无法将它们区分开，因为这些声音具有相似的总体统计特性。借用此概念，以DNN模型替代人类感知，由模型生成的、与自然刺激相配对的刺激，被称作模型同色异谱。

基于此，该研究使用识别判断（recognition judgement）作为行为测定标准，来检测模型同色异谱是否反映了相关人类感知系统中实例化相应的不变性。如果人类无法识别一个模型同色异谱，那么他们也就无法将其与参照刺激划为一类。

所以，在研究中他们首先构建模型同色异谱，之后将获得的同色异谱呈现给人类测试者，让他们进行分类，看是否与最初的刺激物属于同一类。

具体步骤如下：

1）测量自然图像或声音在特定模型阶段引起的激活；

2）将自然图像或声音的同色异谱初始设置为白噪声信号。图像或声音波形均可，选择白噪声是为了在模型约束条件下尽可能广泛地对同色异谱进行采样，而不会使初始化偏向于特定的对象类别；

3）对噪声信号进行修改，使其在相关模型阶段的激活同与之匹配的自然信号的激活之间的差异最小。优化过程是对输入信号进行梯度下降，在模型参数保持不变的情况下反复更新输入信号。

▷图注：模型同色异谱的构建过程。图源：论文

任何由可微分运算构建的模型阶段，都可以用这种方法生成模型同色异谱。由于本研究所考虑的模型是分层的，如果图像或声音在某一特定阶段得到了高保真匹配，那么随后的所有阶段也都会得到匹配，包括在监督模型中的最终分类阶段，它们会产生相同的决定。

（1）标准视觉DNN的同色异谱

研究者为五个跨越不同结构和深度的标准视觉神经网络的多个阶段生成了同色异谱。这五个标准视觉神经网络在ImageNet1K数据集上进行训练，可以捕捉到与灵长类动物视觉表征相似的特征。随后，又对另外五个模型进行了第二次实验，这五个模型是在项目后期获得的更大数据集上预先训练的。

为了评估人类对模型同色异谱的识别能力，人类测试者对自然刺激和模型同色异谱进行了一个包含16个类别的分类任务（16-way categorization task）。结果发现，与“训练有素的神经网络学会了类似于人类的不变性”这一想法相反，人类对模型同色异谱的识别能力在不同模型阶段都有所下降。

▷图注：标准训练的视觉深度神经网络的同色异谱，通常无法被人类测试者识别。图源：论文

▷图注：来自标准训练和半弱监督学习训练的ResNet50视觉模型的同色异谱示例。图源：论文

（2）标准听觉DNN的同色异谱

研究者还用两个经过训练的听觉神经网络——CochResNet50和CochCNN9，进行了类似的实验。他们在Word–Speaker–Noise数据集中进行单词识别任务，模型同色异谱是根据验证集中的纯语音示例生成的。人类测试者执行了一项包含793个类别的分类任务（793-way categorization task），识别刺激中的单词。

▷图注：人类对听觉模型同色异谱的识别率。图源：论文

▷图注：来自两个听觉模型同色异谱示例的耳蜗图。颜色强度表示频率通道中的瞬时声音振幅（任意单位）。图源：论文

研究人员惊奇地发现，通过同色异谱方式生成的大多数图像和声音，看起来和听起来都与模型最初得到的示例完全不同。大多数图像只是杂乱无章的像素的堆叠，而声音则听起来更像噪音。将它们展示给人类测试者时，他们大多数都无法将其归到与原始刺激相同的类别中。

这表明，尽管这些视觉和听觉神经网络模型目前是每种模式下大脑反应的最佳预测模型，但它们的不变性与人类感知的不变性严重不符。也就是说，模型形成了自己的不变性。在模型看来相同的刺激物，对人类来说有着天壤之别。

这不是个例

研究人员不仅试图回答，常用神经网络模型习得的不变性是否与人类感知系统相同，他们还好奇无监督学习模型（unsupervised model）中是否也存在这种不变性差异？

生物系统通常无法获得监督学习所需的大规模标签（label），在很大程度上依赖无监督学习。所以，有理由怀疑，神经网络模型中明显存在的不变性差异，在某种程度上可能源于带有明确类别标签的监督训练。

同色异谱非常适合用于回答这个问题，因为其生成不依赖于分类器，任何感官模型都可以生成同色异谱。

目前，主要的无监督模型都是“自监督”模型，它们在训练时使用损失函数，该函数偏向于将单个训练示例的变体（例如图像的不同裁剪）表征为相似，而将不同训练示例的变体表征为不相似。研究者为四种此类模型（SimCLR、MoCo_V2、BYOL和IPCL）以及具有相同架构的监督比较模型生成了模型同色异谱。

▷图注：ResNet50监督和自监督模型中部分阶段的同色异谱示例。在所有模型中，后期同色异谱大多无法识别。图源：论文

▷图注：人类测试者从监督和自监督模型中识别同色异谱的概率，以及在模型的每个阶段根据ImageNet1K任务训练的线性读出器（linear readout）的分类性能。图源：论文

对比发现，自监督模型的结果与监督模型相似，人类测试者对模型同色异谱的识别率在模型后期都有所下降，在最后阶段接近偶然水平。这表明，标准神经网络模型无法通过上述同色异谱测试，这并不是监督训练程序所特有的。

人类各模型之间是否共享同色异谱？

虽然模型同色异谱无法被人类识别，但它是否能被其他模型识别呢？也就说，各个模型是否拥有相同的不变性？

为了解决这个问题，研究者将所有针对一个模态训练的模型纳入研究，将其中一个模型作为“生成”模型，并将其同色异谱呈现给每个其他模型（“识别”模型），测量它们对类别预测的准确性。每个模型依次作为生成模型，重复上述过程。

▷图注：为“生成”模型的每个阶段生成同色异谱。这些同色异谱被呈现给“识别”模型。图源：论文

结果发现，模型往往包含独特的不变性，即它们的同色异谱无法被其他模型识别。之前的研究发现，自然图像的表征不相似矩阵（representational dissimilarity matrix）在不同神经网络模型之间可能存在差异，本研究的发现与之基本一致。

简言之，研究人员在不同的听觉模型和视觉模型中都得到了相同的效果——每个模型都形成了自己独有的不变性。当一个模型的同色异谱展示给另一个模型时，第二个模型和人类测试者一样，也无法识别。

如何使模型的同色异谱更易被人类识别？

目前模型与人类之间另一个常见的差异是，模型倾向于根据纹理而非形状来进行判断。这种“纹理偏差”（texture bias）可以通过“风格化”图像的训练数据集来减少，从而增加模型对形状线索的依赖，使模型在这方面更像人类。鉴于此，研究人员探究了纹理偏差是否也有助于减少模型同色异谱的差异。

研究者选取了在Stylized ImageNet上训练的两个模型，为它们生成了同色异谱。结果发现，这些模型的同色异谱与在标准ImageNet1K训练集上训练的模型的同色异谱一样，同样无法被人类识别。这表明，纹理偏差无法解释同色异谱差异！这些差异并不只是由模型的纹理偏差造成的。

▷图注：（e）使用Stylized ImageNet增强的自然图像和风格化图像示例。（f）人类对使用Stylized ImageNet训练的ResNet50架构和AlexNet架构的模型同色异谱的识别。图源：论文

众所周知，目前人工神经网络的一个特点是，容易受到对抗扰动（adversarial perturbation）的影响。刺激物的微小变化就会改变模型的判断，但人类通常无法察觉这些变化。

降低这种脆弱性的一种方法是进行对抗训练（adversarial training），即在训练过程中产生对抗扰动，迫使模型学会将扰动图像识别为“正确的”人类可解释的类别。那么，这种对抗训练是否会有助于人类识别模型的同色异谱？

▷图注：对抗训练。图源：论文

研究人员为五个经过对抗训练的视觉模型生成了模型同色异谱，这些模型具有不同的结构和扰动大小。作为对照，他们还对模型进行了随机方向而非对抗方向的等量扰动训练，这种训练通常无法有效防止对抗性攻击。

▷图注：有对抗性扰动、无对抗性扰动或随机扰动的模型同色异谱示例。图源：论文

研究人员发现，与标准训练的模型或随机扰动训练的模型相比，在所有情况下，通过对抗训练诱导出的同色异谱都更容易被人类识别。不过，这些同色异谱的效果还是不如原始刺激物。

在听觉模型上的对抗训练研究，也得到了相同的效果。总之，对抗训练可以使模型的不变性在视觉和听觉领域变得更像人类。进一步的研究还发现，识别率的提升与对抗训练对模型鲁棒性的影响无关。

同色异谱vs模型-大脑相似性

既然不同模型之间同色异谱存在差异，那么同色异谱测试与传统的模型评估方法（如大脑预测或对抗脆弱性等）相比是否具有优势呢？

为了弄清楚这个问题，研究者使用标准模型-大脑比较基准，对上述提到的所有视觉和听觉模型进行了评估。对于视觉模型，他们使用Brain-Score平台，用以测量模型表征与视觉区域V1、V2和V4以及下颞皮层（IT）的神经基准的相似性。

▷图注：神经基准流程。图源：论文

对于每个模型，他们都选取了在各视觉区域的保留数据中相似度最高的模型阶段，以此计算每个视觉区域的得分。然后，将这一神经基准得分与用于获得神经预测的同一阶段的模型同色异谱的可识别性进行比较。这项分析表明，V4和IT的两个测量值之间存在适度的相关性，但经过Bonferroni校正后并不显著，而且远低于预设的噪声上限。

此外，不同模型的神经基准得分总体上极其相似。因此，标准的模型-大脑比较基准并不能捕捉在同色异谱识别方面的差异。

同时，他们使用一个大型人类听觉皮层功能磁共振成像（fMRI）数据集，对听觉模型进行了类似的分析，最终得出相似的结论。也就是说，同色异谱测试在区分模型方面超过了这些传统指标，可作为传统的模型-大脑拟合度量的一种补充工具，与其相辅相成。

总结

在不同的模态（视觉和听觉）和训练方法（监督训练和自监督训练）下，由于DNN存在不同于人类感知系统中的不变性，其同色异谱通常无法被人类识别。这种效应是由模型特有的不变性驱动的。同时，研究者还找到了使模型同色异谱更易被人类识别的方法，比如在模型的中间阶段对模型进行对抗训练。

同样，人类是否也有个体特有的不变性？鉴于目前还无法对人类同色异谱进行采样，因此很难测试这种可能性。如果人类也存在特异的不变性，那么本文描述的现象可能就不是人类与模型之间的差异，而更可能是识别系统的一种共同特性。

参考文献

Feather, J., Leclerc, G., Mądry, A. et al. Model metamers reveal divergent invariances between biological and artificial neural networks. Nat Neurosci 26, 2017–2034 (2023). https://doi.org/10.1038/s41593-023-01442-0
https://news.mit.edu/2019/differences-between-deep-neural-networks-and-human-perception-1212
https://neurosciencenews.com/neural-networks-sensory-perrception-24953/