近些年来,很多人工智能系统都是使用大量带有标记的数据来进行学习的,这就像学生整个学期都没来上课,然后在期末考试前一晚死记硬背,虽然取得了好成绩,却并没有真正理解知识。

但是,《量子杂志》(Quanta Magazine)8月11日发表文章称,一些计算神经科学家开始尝试使用含有少量甚至没有人工标记的数据来训练神经网络,并在模拟人类语言以及最新的图像识别方面已经颇有成效。人工网络似乎逐渐展现出人类大脑的实际学习方式。


(相关资料图)

十年来,许多最出色的人工智能系统都是使用大量带有标记的数据来进行学习的。例如,一个图像可能被标记为“虎斑猫”或“山猫”,以便“训练”人工神经网络正确区分二者。这一方法取得了惊人的成功,却也存在着严重的缺陷。

这种“有监督”的训练需要人工耗时费力地标记数据,而神经网络往往会走捷径,把标记与最少的信息相关联,这些信息往往只是表面的。例如,神经网络也许会根据草的存在来识别一张奶牛的照片,因为奶牛通常是在田间被拍摄的。

加州大学伯克利分校(University of California,Berkeley)的计算机科学家阿列克谢·埃夫罗斯(Alexei Efros)谈到,“我们正在培养一代算法,这种算法就好比本科生整个学期都没来上课,然后在期末考试前一晚死记硬背,其实他们并没有真正理解这些资料,但他们在考试中表现很好。”

并且,对于关注动物与机器智能交叉领域的研究人员来说,这种“监督学习”在揭示生物大脑方面可能受到限制。而包括人类在内的动物不是通过标记数据集进行学习的。通常而言,动物们会通过自己探索环境而对世界产生丰富而有力的了解。

目前,一些计算神经科学家开始尝试使用含有少量甚至没有人工标记的数据来训练神经网络。这些“自监督学习”算法在模拟人类语言以及最新的图像识别方面已经颇有成效。在最近的研究中,与监督学习得到的模型相比,使用自监督学习算法构建的哺乳动物视觉和听觉系统的计算模型更接近大脑功能。在一些神经科学家看来,人工网络似乎逐渐展现出人类大脑的实际学习方式。

有缺陷的监督

受人工神经网络启发的大脑模型大约在10年前就成熟了,几乎同时,一个名为AlexNet的神经网络彻底革新了分类未知图像的方法。与所有神经网络一样,该网络由多层人工神经元组成,这些计算单元相互连接,关联的强度或“权重”可能不同。如果神经网络无法正确分类图像,学习算法将更新神经元之间关联的权重,以减少下一轮训练中出现错误分类的可能性。这个过程循环往复,直到错误率降低至可以接受的程度。

随之,神经科学家使用AlexNet及其衍生的神经网络,研发出了灵长类视觉系统的第一个计算模型。这种合并看起来很有前景:例如,当猴子和人工神经网络看到相同的图像时,真实神经元和人工神经元的活动表现出有趣的对应关系。研究还检测了它们在听觉和气味上的反应。

但随着该领域的发展,研究人员意识到了监督训练的局限性。例如,2017年,当时在德国图宾根大学(University of Tübingen)工作的计算机专家利昂·盖蒂斯(Leon Gatys)和他的同事拍摄了一张福特T型车的照片,并在照片上覆盖豹皮图案,生成了一张奇异而可辨的图像。先进的人工神经网络将原始图像正确分类为福特T型车,但将修改后的图像误认为豹子。这一案例表明,它专注于纹理,却不了解汽车(或豹子)的形状。

加州大学的计算机科学家阿列克谢·埃夫罗斯认为,大多数现代人工智能系统太依赖人类创建的标签,“他们并没有真正在学习材料。”

自监督学习策略则旨在避免此类问题。在这种方法中,人类不需要标记数据。相反,“标记来自数据本身,”来自瑞士巴塞尔的弗里德里希·米谢尔生物医学研究所(Friedrich Miescher Institute for Biomedical Research)的计算神经学家弗里德曼·泽克(Friedemann Zenke)说道。自监督算法本质上是在数据中创建空白,并要求神经网络填补它们。例如,在所谓的大型语言模型中,训练算法将向神经网络显示句子的前几个单词,要求它预测下一个单词。当使用从互联网上收集的大量文本语料库进行训练时,该模型似乎可以领会语言的句法结构,然后展现令人印象深刻的语言能力——而所有的这些行为都没有借助外部标记或监督。

计算机视觉领域也在进行类似的工作。2021年底,Kaiming He和同事们展示了他们的“蒙面自动编码器”,该编码器以埃夫罗斯团队在2016年开创的技术为基础。自监督学习算法随机遮蔽图像,几乎遮挡了每幅图像的四分之三。该自动编码器将未遮蔽部分转换为隐层表示,即包含有关对象重要信息的被压缩过的数学表示(对于图像来说,隐层表示可能是一种数学描述,其中包括捕捉图像中物体的形状等信息)。然后解码器将这些表示转换成完整图像。

自监督学习算法将编码器和解码器组合并训练,以将残缺图像恢复为完整版本。真实图像和重建图像之间的任何差异都会反馈到系统中,帮助系统学习。该过程对一组训练图像重复,直到系统的错误率变得适当低。在一个案例中,一个经过训练的蒙面自动编码器成功恢复了一个几乎被遮挡了80%的巴士图像,系统成功重建了巴士的结构。

“这是一个非常非常令人印象深刻的结果。”埃夫罗斯说。

相比先前的算法,这样的系统创建的隐层表示包含更深层信息。例如,该系统可以学习汽车或豹子的形状,而不仅仅是它们的图案。埃弗罗斯说:“从下到上积累知识,这就是自监督学习的基本理念。”不要为了通过考试而临时抱佛脚。

自我监督的大脑

在这样的系统中,一些神经科学家看到了人脑学习的反馈方式。麦吉尔大学和魁北克人工智能研究所(Mila)的计算神经科学家布莱克·理查兹(Blake Richards)表示:“毫无疑问,大脑90%的活动是自监督学习。”生物大脑被认为是在不断预测,比如说,一个物体移动时的未来位置,或者句子中的下一个单词,就像一个自监督学习算法试图预测图像或文本片段中的间隙一样。大脑也会从自己的错误中学习,我们大脑的反馈只有一小部分来自外部,基本上是明确提示的“错误答案”。

计算神经科学家布莱克·理查兹帮助创建了可以模仿大脑视觉网络的人工智能。

参考人类和其他灵长类动物的视觉系统,这些是所有动物感觉系统中被研究得最好的,但神经科学家一直致力于解释为什么它们包括两个独立的通路:腹侧视觉流,负责识别物体和面部,以及背侧视觉流,负责处理运动(分别是“什么”和“哪里”通路)。

理查兹和他的团队创建了一个自监督模型来寻求答案。他们训练了一种算法,结合两种不同的神经网络:第一种称为ResNet架构,用于处理图像;第二种称为递归网络,可以跟踪一系列先前的输入,以预测下一个预期输入。为了训练组合的算法,团队从一段视频中抽取一个序列,比如第10帧开始,让ResNet逐个处理。然后,递归网络预测第11帧的潜在表示,而不是简单地匹配前10帧。自监督学习算法将预测值与实际值进行比较,并指导神经网络更新其权重,以优化预测。

理查兹的团队发现,使用单一ResNet训练的人工智能擅长对象识别,但不擅长运动分类。在不改变神经元总数的情况下,当他们将单个ResNet拆分为两个,用以创建两条通路时,人工智能将其中一个用于对象识别,另一个用于运动分类,从而能够像我们的大脑一样实现这些属性的下游分类。

为了进一步测试人工智能,研究小组向其展示了西雅图艾伦脑科学研究所(Allen Institute for Brain Science in Seattle)的研究人员此前向小鼠展示的一组视频。与灵长类动物一样,老鼠的大脑区域专门用于静态图像和运动。艾伦的研究人员在动物观看视频时记录了小鼠视觉皮层的神经活动。

同样地,理查兹的团队也发现了人工智能和活体大脑对视频反应的相似之处。在训练过程中,人工神经网络中的一条通路变得更类似于小鼠大脑的腹侧目标检测区域,而另一条通路则类似于运动集中的背侧区域。“研究结果表明,单一途径还不足以很好地预测视觉,因此我们的视觉系统有两条专门的路径。”理查兹说。

人类听觉系统的模型也讲述了类似的故事。6月,Meta AI的科学家让·雷米·金(Jean-Rémi King)领导的团队训练了一种名为Wav2Vec 2.0的人工智能,使用神经网络将音频转换为隐层表示。研究人员隐藏了其中的一些表示,然后将其输入到另一个称为转换器的神经网络组件中。在训练期间,转换器预测被隐藏的信息。在这个过程中,整个人工智能学会了将声音转化为隐层表示——同样,不需要标签。金说,该团队使用了大约600小时的语音数据来训练网络,“这大约是一个孩子在出生后两年内会获取的经历”。

让·雷米·金帮助训练的人工智能,通过模仿大脑的工作方式来处理音频。

一旦该系统得到训练,研究人员就用英语、法语和中文普通话播放有声读物中的部分内容。然后,研究人员将人工智能的性能与一个包含412人的数据进行了比较。这412人由以上述三种语言之一为母语的人混合组成,他们在功能性核磁共振成像扫描仪中对大脑进行成像的同时,也听了相同的音频片段。金说,尽管功能性核磁共振成像图像分辨率低且粗糙,但神经网络和人脑“不仅相互关联,而且以系统的方式相互关联”:人工智能初级层的活动与初级听觉皮层的活动一致,而人工智能最深层的活动与大脑更高层(在该研究中即前额叶皮层)的活动一致。“这是非常漂亮的数据,”理查兹说。“这不是结论,但这是另一个令人信服的证据,事实表明,我们学习语言在很大程度上是通过预测接下来要说的话。”

未解决的反常问题

不过这种结论并不是每个人都信服。麻省理工学院的计算神经学家乔希·麦克德莫特(Josh McDermott)利用监督学习和自监督学习研究了视觉和听觉感知模型。他的实验室设计了一种合成音频和视频信号,对人类来说,这些信号只是难以理解的噪音,但在人工神经网络中与真实信号几乎无法区分。这表明即使是自监督学习,神经网络深层形成的表示,也与我们大脑中的表示不匹配。麦克德莫特说,这些自监督学习方法“在某种意义上是一种进步,你不需要任何标记就可以学习支持多种识别行为的表示。不过这种方法仍然有许多监督模型的缺陷”。

算法本身也需要更多的改进。例如,在Meta AI的Wav2Vec 2.0中,人工智能只能预测几十毫秒声音的隐层表示,这比发出能够在感知上区分的噪声所需的时间还短,更不用说一个单词了。金说:“要想让人工智能像大脑一样工作,依然任重而道远。”

真正理解大脑功能,需要的不仅仅是自我监督学习。一方面,大脑充满了反馈连接,而当前的模型几乎没有这种连接。研究工作的下一步显然是使用自监督学习来训练高度循环的网络,并验证这种网络中的活动与真实的大脑活动相比如何。这是一个困难的过程。另一个关键步骤是将自监督学习模型中人工神经元的活动与单个生物神经元的活动相匹配。“希望在未来,我们的研究结果也能通过单细胞记录得到证实。”金说。

如果这些大脑和自监督学习模型之间被观察到的相似性也适用于其他感官,则将更有力地表明,无论我们的大脑有多大魔力,都需要某种形式的自我监督学习。“如果我们真的在截然不同的系统之间找到了系统上的相似之处,这将表明也许大脑没有那么多智能的方法处理信息。”金说,“至少,这是我们想要研究的一种美丽的假设。”

推荐内容