人工智能深度学习注意力机制计算机视觉自然语言处理变压器

视觉中的注意力机制与自然语言处理中的注意力机制

注意力机制是现代人工智能在计算机视觉和自然语言处理领域的核心驱动力，但它们用途不同，发展路径也各异。视觉注意力机制帮助模型聚焦于相关的图像区域，而自然语言处理注意力机制则用于理解文本序列中的词语关系。

亮点

视觉注意力侧重于空间区域，而自然语言处理注意力则捕捉序列中的词元关系。
NLP 注意力机制早于视觉注意力机制出现，Transformer 架构启发了多年后的 Vision Transformer。
视觉模型使用二维位置嵌入，而自然语言处理模型依赖于一维位置信息。
跨注意力机制现在连接了这两个领域，从而实现了像 CLIP 和 GPT-4V 这样强大的多模态人工智能系统。

视觉中的注意力机制是什么？

使视觉模型能够有选择地聚焦于图像和视频中的重要空间区域或特征的技术。

Vision Transformers (ViT) 将图像分割成块并应用自注意力机制，在 ImageNet 上取得了最先进的结果。
空间注意力有助于模型识别图像中哪些部分对于目标检测和分割等任务最为重要。
通道注意力由 Squeeze-and-Excitation 网络推广开来，它重新校准滤波器通道之间的特征响应。
当有足够的训练数据（通常是数百万张图像）时，基于注意力机制的视觉模型通常比 CNN 表现更好。
CLIP 等视觉语言模型中的交叉注意力机制将图像块与文本标记对齐，以实现多模态理解。

自然语言处理中的注意力是什么？

使语言模型能够在处理序列文本数据时权衡不同词语和标记的重要性的方法。

Transformer 架构于 2017 年推出，完全依赖于自注意力机制，彻底改变了自然语言处理 (NLP)。
自注意力机制允许序列中的每个标记关注其他每个标记，从而捕捉长距离依赖关系。
多头注意力机制并行运行多个注意力操作，使模型能够同时关注不同的关系类型。
GPT 等解码器模型中的因果掩蔽确保每个标记在文本生成过程中只关注之前的标记。
注意力机制取代了 RNN 和 LSTM，成为翻译、摘要和语言建模的主流方法。

比较表

功能	视觉中的注意力机制	自然语言处理中的注意力
主要输入类型	图像、视频帧或视觉色块	文本标记、单词或子词单元
注意力粒度	空间区域、斑块或特征通道	序列间标记关系
起源建筑	视觉变压器 (ViT)、DETR、SE-Net	原始Transformer编码器-解码器（Vaswani等人，2017）
计算复杂度	与图像分辨率呈二次方关系；基于图像块的方法可降低成本	与序列长度呈二次方关系；存在稀疏注意力变体
典型应用案例	图像分类、目标检测、分割、视频理解	翻译、文本生成、问答、摘要
掩蔽策略	通常不存在因果掩蔽；双向注意力常见	解码器采用因果掩蔽；编码器采用双向掩蔽
职位信息	空间结构的二维位置嵌入	词序的一维位置嵌入
数据要求	像 ImageNet 或 JFT-300M 这样的大规模图像数据集	大型文本语料库，例如 Common Crawl 或 Wikipedia

详细对比

核心宗旨和职能

视觉注意力机制帮助模型决定在图像中关注哪些区域，本质上是突出显示包含与特定任务最相关信息的空间区域。而自然语言处理注意力机制则确定句子内部或文档中词语之间的关系，捕捉语义依赖关系，无论距离远近。两者都基于加权重要性这一基本思想，但它们处理的结构却截然不同。

建筑演变

自然语言处理（NLP）注意力机制以现代形式出现得最早，2017 年发表的 Transformer 论文确立了自注意力机制作为语言理解的基石。视觉注意力机制大量借鉴了 NLP 的这些突破性进展，2020 年的 Vision Transformer 模型证明，纯粹基于注意力机制的架构可以媲美甚至超越卷积神经网络。此后，这两个领域持续相互融合，诸如交叉注意力机制等技术如今已在多模态模型中连接了视觉和语言。

计算方面的考虑

两者都面临着二次复杂度的挑战，但规模不同。自然语言处理模型处理的序列从几百个词元到几十万个词元不等，而视觉模型则必须处理包含数千个高分辨率图像块的图像。视觉研究人员已经开发出高效的变体，例如 Swin Transformer 的窗口注意力机制，而自然语言处理则开发出稀疏注意力和线性注意力方法来处理更长的上下文。

掩蔽和方向性

关键区别在于注意力的流动方式。自然语言处理（NLP）解码器模型使用因果掩码，因此每个词元只能看到之前的词元，这对于自回归文本生成至关重要。视觉模型通常使用双向注意力，因为理解图像并不需要从左到右的顺序。一些视觉任务确实会使用掩码注意力，尤其是在掩码自编码器中，其中部分输入在训练过程中会被隐藏。

位置编码

由于文本具有自然的顺序性，自然语言处理（NLP）使用一维位置嵌入来告诉模型每个词元在序列中的位置。而视觉处理则需要二维位置嵌入来保留图像块之间的空间关系，因为图像具有高度和宽度两个维度。这种差异影响着各个领域如何设计其嵌入方案，以及模型如何泛化到不同尺寸的输入。

跨域应用程序

视觉和自然语言处理（NLP）注意力机制之间的界限已变得模糊不清。CLIP、DALL-E 和 Flamingo 等模型利用交叉注意力机制连接视觉和文本表征，从而实现图像描述、视觉问答和文本到图像生成等任务。这些多模态系统表明，注意力机制具有极高的灵活性，能够将不同类型的数据统一到一个架构中。

优点与缺点

视觉中的注意力机制

优点

+ 捕捉全球背景
+ 擅长处理大型数据集
+ 可解释的注意力图
+ 灵活的架构

继续

− 高昂的计算成本
− 需要大量数据
− 基于补丁的复杂性
− 较少的归纳偏见

自然语言处理中的注意力

优点

+ 处理长期依赖关系
+ 可并行化的训练
+ 现代法学硕士的动力
+ 丰富的迁移学习

继续

− 二次复杂度
− 上下文长度限制
− 幻觉风险
− 资源密集型

常见误解

神话

视觉和自然语言处理中的注意力机制是完全不同的技术。

现实

它们都基于相同的数学基础，即基于查询键值对交互计算加权和。区别主要在于输入数据的结构方式以及添加的位置信息，而非底层机制本身。

神话

即使处理小型数据集，视觉转换器也能很好地工作。

现实

与内置归纳偏置的卷积神经网络（CNN）不同，视觉信息处理（ViT）通常需要海量数据集（通常包含数亿张图像）才能超越卷积方法。在较小的数据集上，除非应用强正则化或预训练，否则卷积神经网络通常仍然更胜一筹。

神话

在自然语言处理中，注意力机制意味着模型真正理解语言。

现实

注意力机制是一种对输入进行加权的计算机制，而非理解能力的保证。大型语言模型可以生成流畅的文本，但仍然会犯推理错误、产生臆想事实，或者无法完成简单的逻辑任务。

神话

注意力机制正在完全取代卷积神经网络和循环神经网络。

现实

混合架构依然流行，并且通常比纯注意力模型表现更好。卷积层仍然出现在许多最先进的视觉系统中，一些自然语言处理模型也能从注意力机制与其他方法的结合中获益。

神话

注意力图直接显示模型正在思考的内容。

现实

注意力权重并非总是模型行为的可靠解释。研究表明，注意力分布与特征重要性并不一定相关，因此在解释注意力分布时需要谨慎。

常见问题解答

视觉注意力与NLP（神经语言程序学）的主要区别是什么？

视觉注意力机制作用于二维空间结构（例如图像块），专注于识别重要区域；而自然语言处理注意力机制作用于一维词序列，旨在捕捉词语之间的关系。两者都使用类似的数学公式，但在位置信息的编码方式和掩码的应用方式上有所不同。

注意力机制起源于自然语言处理还是计算机视觉？

现代注意力机制起源于自然语言处理（NLP），Vaswani等人于2017年发表的Transformer论文是一个里程碑式的事件。视觉Transformer（ViT）随后于2020年问世，它将语言中的自注意力原理应用于图像，并将图像视为图像块序列。

注意力机制能否处理长序列或高分辨率图像？

标准的自注意力机制具有二次复杂度，因此处理长输入数据时计算成本很高。研究人员开发了诸如用于自然语言处理的 Linformer、Performer 和 Longformer 等高效变体，以及用于计算机视觉的 Swin Transformer 或 MaxViT 等，这些变体在降低计算成本的同时，还能保持性能。

为什么 Vision Transformer 需要如此多的训练数据？

与内置局部性和平移不变性假设的卷积神经网络（CNN）不同，虚拟训练模型（ViT）必须通过注意力机制从零开始学习这些空间关系。如果数据不足，它们容易过拟合，因此通常需要在 JFT-300M 等数据集上进行大规模预训练。

跨注意力如何将视觉模型和语言模型联系起来？

交叉注意力机制允许一种模态的标记关注另一种模态的标记，从而使像 CLIP 这样的模型能够将图像块与文本描述对齐。这种机制对于执行图像描述、视觉问答和文本到图像生成的多模态系统至关重要。

注意力权重对模型的可解释性有用吗？

注意力权重可以帮助我们了解模型关注哪些输入，但不应将其视为最终解释。研究表明，注意力并不总是与特征重要性相关，其他可解释性方法可能更可靠。

什么是多头注意力？它为什么重要？

多头注意力机制并行运行多个注意力操作，每个操作学习关注不同类型的关系。在自然语言处理中，一个注意力头可能跟踪句法依赖关系，而另一个注意力头则捕捉语义相似性。在视觉领域，不同的注意力头可以同时关注各种空间模式或物体部分。

视觉模型是否像自然语言处理解码器那样使用因果掩蔽？

大多数视觉模型使用双向注意力机制而不进行因果掩蔽，因为理解图像并不需要遵循顺序。然而，掩蔽自编码器会在训练过程中隐藏随机图像块，以促使模型学习鲁棒的表征，其理念相似但目的不同。

视觉和自然语言处理中的位置嵌入有何不同？

自然语言处理（NLP）使用一维位置嵌入来编码序列中的词元顺序，而视觉模型则需要二维位置嵌入来保持图像高度和宽度方向上的空间关系。一些高级视觉模型还使用相对位置编码来更好地处理不同的图像分辨率。

注意力机制在人工智能领域是否会继续占据主导地位？

目前，基于注意力机制的架构在大多数人工智能基准测试中处于领先地位，但研究人员仍在探索其他替代方案，例如状态空间模型（Mamba）、专家混合模型和新型架构。该领域发展迅速，将注意力机制与其他机制相结合的混合方法可能会塑造下一代模型。

裁决

当您的任务涉及理解图像或视频中的空间关系时，尤其是在处理大型数据集并需要精细定位时，请选择视觉注意力机制。当处理需要理解、生成或翻译上下文的序列文本数据时，请选择自然语言处理注意力机制。对于多模态项目，通过交叉注意力机制将两者结合起来通常可以获得最佳效果。