计算机视觉机器学习图像识别深度学习人工智能

零样本图像检索与监督分类系统

零样本图像检索利用语义描述识别训练过程中从未见过的类别中的视觉内容，而监督分类系统则需要为每个识别的类别提供已标注的示例。两者都服务于计算机视觉任务，但在获取知识和处理新输入的方式上存在根本差异。

亮点

零样本检索通过语义描述识别未见过的类别，而监督系统则需要每个类别的标记示例。
监督分类在已知类别上能取得更高的准确率，但无法推广到训练分布之外。
零样本方法无需重新培训即可扩展到新的类别，从而大幅降低运营成本。
像 CLIP 这样的现代视觉语言模型将两种范式的优势融合到统一的架构中。

零样本图像检索是什么？

一种计算机视觉方法，它使用语义嵌入而不是标记的训练样本来查找与未见过的类别相匹配的图像。

依靠属性描述、词嵌入或文本标题等辅助语义信息来连接已见类别和未见类别。
DeViSE 等模型开创了这一技术，它将视觉特征与 word2vec 嵌入相结合，从而能够识别未见过的标签。
通常使用 SUN Attribute、aPY 和 Animals with Attributes (AwA) 等数据集进行评估，这些数据集提供结构化的类元数据。
使用联合嵌入空间，将图像和类别描述置于同一个向量空间中进行相似性比较。
当收集每个可能类别的带标签训练数据不切实际或不可能时，这种方法尤其有价值。

监督分类系统是什么？

传统机器学习模型使用大量人工标注的训练数据，将图像分类到预定义的类别中。

要达到标准基准测试的可靠准确率，每个类别需要成千上万到数百万个带标签的示例。
像 ResNet、EfficientNet 和 Vision Transformers 这样的卷积架构主导了现代监督图像分类流程。
性能通常使用 ImageNet 等数据集中预留的测试集上的 top-1 和 top-5 准确率来衡量。
如果不使用新的标记数据进行重新训练或微调，则无法识别训练集中不存在的类别。
它是许多生产系统（包括医学影像诊断、内容审核和质量控制）的支柱。

比较表

功能	零样本图像检索	监督分类系统
训练数据需求	仅需语义描述，无需为未见过的类别添加标注图像。	每门课程都需要大量的带标签图像
处理小说类别	能够识别训练中从未遇到过的课程	无法处理训练分布之外的类别
知识来源	属性、文本嵌入或知识图谱等辅助信息	直接从标记图像示例中学习到的模式
常见类别的典型准确率	通常低于受监管的同类人员	在标准基准测试中表现出色
向新类别扩展	仅通过提供语义描述即可添加新类别。	需要收集和标注新的训练图像
通用架构	双编码器网络、CLIP风格模型、嵌入对齐框架	ResNet、EfficientNet、Vision Transformers、VGG 变体
评估数据集	太阳属性、aPY、具有属性的动物、CUB-200	ImageNet、CIFAR-10/100、COCO、MNIST
部署复杂性	由于需要语义元数据基础设施，因此成本较高。	使用成熟框架和预训练检查点降低成本

详细对比

学习范式和数据需求

最根本的区别在于两种系统获取视觉内容识别能力的方式。监督分类直接从已标注的图像样本中学习，构建将像素数据映射到预定义类别的统计模式。零样本检索则采取完全不同的方法，学习将视觉特征与语义描述关联起来，从而能够泛化到从未在视觉上遇到过的类别。这使得零样本方法在标注成本高昂或类别空间无限大的领域中尤为具有吸引力。

性能权衡

监督式系统在训练数据中已有的类别上始终优于零样本方法，因为它们拥有直接的视觉示例可供学习。然而，当面对全新的类别时，这种优势便会消失。零样本检索牺牲了已知类别的峰值准确率，以换取处理全新概念的灵活性。现代基础模型（例如 CLIP）通过大规模图像-文本预训练，显著缩小了这一差距，实现了与零样本方法相媲美的性能。

实际应用案例

监督分类在定义明确、封闭的场景中表现出色，例如制造业中的缺陷检测、受控数据集中的物种识别，或存在标记数据的医学成像。零样本检索则在开放词汇环境中大放异彩，例如视觉搜索引擎、大型目录中的基于内容的图像检索，以及用户可能搜索系统从未明确训练过的概念的应用。许多实际系统现在都结合了这两种方法，以实现最大覆盖范围。

可扩展性和维护

在监督式系统中添加新类别意味着需要收集成百上千张带标签的图像并重新训练模型，这是一个成本高昂且耗时的过程。零样本检索允许操作人员仅通过编写或获取语义描述来引入新类别，从而显著降低扩展识别能力的运维开销。在快速变化的领域，新产品类别、新兴威胁或不断演变的术语层出不穷，这种差异尤为关键。

建筑基础

监督分类通常采用单塔架构，通过softmax层将图像直接映射到类别概率。零样本检索通常采用双编码器或孪生式设计，将图像和类别描述投影到共享的嵌入空间，并在该空间中衡量相似性。近年来，视觉语言模型的发展模糊了这些界限，出现了能够通过自然语言提示同时进行分类和检索的统一架构。

优点与缺点

零样本图像检索

优点

+ 无需标注训练数据
+ 轻松处理新颖的类别
+ 灵活开放的词汇
+ 降低数据收集成本

继续

− 对已见类别的准确率较低
− 取决于语义信息的质量
− 更复杂的部署
− 更难调试故障

监督分类系统

优点

+ 最先进的精度
+ 成熟的工具和框架
+ 易于理解的行为
+ 易于评估和基准测试

继续

− 需要大量的标记数据
− 无法处理未见过的类
− 添加类别成本很高
− 需要重新培训以进行更新

常见误解

神话

零样本学习意味着模型完全不需要训练。

现实

零样本模型仍然需要对已见过的类别和语义关联进行大量的训练。“零样本”这个标签特指它们在推理时能够泛化到未见过的类别，而不是指它们完全没有学习过程。

神话

监督式分类器总是比零样本系统表现更好。

现实

这仅适用于训练集中已存在的类别。对于监督模型从未遇到过的新类别，其准确率会降至零，而零样本系统仍然可以通过语义迁移产生有意义的预测。

神话

零样本检索无需任何数据准备。

现实

虽然对于未见过的类别，标注图像并非必需，但零样本系统却高度依赖高质量的语义描述、属性标注或文本嵌入。而整理这些辅助信息本身就是一项艰巨的任务。

神话

更多的训练数据总是能无限地提高监督分类器的性能。

现实

随着数据量的增加，性能提升会逐渐递减并最终达到瓶颈。标签质量、类别平衡和数据多样性等因素通常比数据量本身更为重要，尤其对于容易在噪声标签上过拟合的深度学习模型而言更是如此。

神话

在实践中，这两种方法是互斥的。

现实

许多生产系统结合了这两种范式，对于高置信度的已知类别使用监督分类器，而对于长尾查询或全新查询则回退到零样本检索。混合架构的性能通常优于任何单一方法。

常见问题解答

零样本图像检索和监督分类的主要区别是什么？

核心区别在于两种系统处理类别的方式。监督分类只能识别经过标记示例明确训练的类别。而零样本图像检索则可以利用语义描述、属性或文本嵌入来弥合已知类别和未知类别之间的鸿沟，从而识别训练过程中从未见过的类别中的图像。

零样本学习能否完全取代监督分类？

不完全如此。虽然零样本学习方法提供了显著的灵活性，但在拥有大量标注训练数据的类别上，监督学习系统仍然能取得更高的准确率。大多数从业者将零样本学习方法用于开放词汇场景，或作为监督学习模型的补充，而不是完全替代，尤其是在安全关键型应用中。

CLIP 与零样本图像检索有何关系？

OpenAI 的 CLIP（对比语言-图像预训练）是目前最成功的零样本学习大规模实现方案之一。CLIP 基于数亿个图像-文本对进行训练，学习一个联合嵌入空间，在该空间中图像和文本描述可以直接比较，只需提供类别名称作为文本提示即可实现零样本分类。

零样本系统使用哪种语义信息？

零样本系统通常依赖于属性向量（例如“有条纹”、“生活在水中”）、来自 word2vec 或 GloVe 等模型的词嵌入、自然语言中的类别描述或知识图谱中的层级关系。这些辅助信息越丰富、越准确，零样本模型就越能更好地将知识迁移到未见过的类别。

为什么监督分类在工业界仍然占据主导地位？

监督分类之所以仍然盛行，是因为它能够在定义明确的问题上提供可预测的高精度结果。医疗成像、制造质量控制和自动驾驶等行业已在标注数据集上投入巨资，并受益于监督分类流程的成熟性、可解释性和基准测试性能。

监督分类器通常需要多少标记数据？

根据复杂程度的不同，所需样本数量也会有所不同，但ImageNet上最先进的模型通常需要使用约120万张标注图像（涵盖1000个类别）进行训练。对于自定义应用，每个类别通常需要数千个样本，不过在许多情况下，通过预训练模型的迁移学习可以将每个类别的样本数量减少到数百个。

对于相同类别，零样本模型是否比监督模型准确率更低？

总体而言是的，尽管差距已经显著缩小。在训练过程中已经见过的类别上，监督模型通常保持优势，因为它们可以直接从视觉示例中学习。然而，基于网络规模数据训练的现代视觉语言模型已经证明，在许多实际场景中，零样本性能可以接近监督基线模型。

评估零样本图像检索的最佳数据集是什么？

流行的基准数据集包括 Animals with Attributes (AwA)，它为 50 个动物类别提供了 85 个属性；SUN Attribute，涵盖了 717 个场景类别，并具有视觉属性；aPY（attribute Pascal-Yahoo），结合了 Pascal VOC 和 Yahoo 图像；以及 CUB-200，这是一个细粒度的鸟类物种数据集，每个类别有 312 个二元属性。

零样本系统能否与自定义的特定领域类别一起使用？

是的，但有效性取决于语义描述捕捉有效区分的程度。对于工业零件或稀有物种等专业领域，您可能需要创建详细的属性列表，或者在特定领域的文本上微调嵌入模型。基于通用网络数据训练的现成零样本模型可能难以处理高度专业的技术词汇。

如何决定新项目采用哪种方法？

首先评估数据的可用性和类别稳定性。如果您拥有大量已标注数据且类别固定，监督分类可提供最佳准确率。如果您的类别频繁变化、已标注数据有限，或者您需要处理开放式查询，则零样本检索可提供所需的灵活性。混合方法通常最适用于复杂的实际应用。

裁决

当您拥有大量已标注数据、类别固定，并且需要对已知类别达到最高精度时，请选择监督分类。当您的类别空间开放、已标注数据稀少，或者您需要无需重新训练即可识别新概念时，请选择零样本图像检索。许多生产系统通过结合这两种方法，在精度和适应性之间取得平衡，从而受益匪浅。