人工智能神经科学计算机视觉心理学

用情感看待事物与用数据看待事物

本文旨在探讨生物感知与算法分析之间的根本差异。人类通过个人经历、情绪和生存本能来感知世界，而机器视觉则依赖于数学像素分布和统计概率来对现实进行分类，完全忽略了情感和语境的影响。

亮点

人类看到的是图像背后的“为什么”，而机器看到的是图像背后的“是什么”。
数据驱动系统可以同时处理数百万张图像而不会感到疲倦。
情感视觉深受文化和个人成长经历的影响。
在有明确指标的受控环境中，机器可以更加精确。

情绪感知是什么？

人类能够通过情感、记忆和社会细微差别等复杂因素来解读视觉刺激。

人类视觉与杏仁核密切相关，使我们能够在有意识地识别威胁之前就对其做出反应。
我们的大脑可以通过面部细微变化和肢体语言来感知房间里的“气氛”或“紧张感”。
记忆可以从生理上改变我们对熟悉环境中颜色和形状的感知。
错觉性错觉现象使我们在随机物体中看到有意义的图案，例如人脸。
恐惧或快乐等情绪状态确实可以扩大或缩小我们的周边视觉范围。

数据驱动的愿景是什么？

通过将光转换为数字阵列并识别模式来解释图像的计算过程。

机器将图像视为代表红色、绿色和蓝色强度值的大量数字网格。
计算机视觉可以检测到人眼完全不可见的光波长，例如红外线。
算法通过计算边缘方向和纹理的数学概率来识别物体。
人工智能系统并不“看到”物体；它们只是将数据模式与包含数百万个训练样本的库进行匹配。
无论运行多少小时，机器视觉始终保持完美一致性。

比较表

功能	情绪感知	数据驱动的愿景
核心机制	神经网络和神经化学	线性代数和张量
诠释风格	情境驱动和叙事驱动	基于统计和特征的方法
识别速度	对于熟悉的概念，几乎是即时的。	因硬件和型号尺寸而异
可靠性	易受疲劳和偏见的影响	能容忍重复，但缺乏“常识”
敏感性	对社交和情感线索高度敏感	微小技术偏差较高
主要目标	生存与社会联系	优化和分类

详细对比

情境的力量

人看到凌乱的卧室可能会联想到“疲惫”或“忙碌的一周”，而机器看到的却是“散落的布料”和“空荡荡的地板”。我们自然而然地会根据所见构建故事，并运用自身的生活经验来填补空白。相比之下，数据驱动的视觉系统将每一帧画面都视为一个全新的数学难题，常常难以理解物体之间有意义的关联。

客观数学 vs. 主观感受

机器擅长完成特定目标，例如在拥挤的广场上准确计数452人，或从远处识别特定的12位序列号。然而，它们无法感知人群的“氛围”。人类或许能瞬间察觉到抗议活动中潜在的躁动情绪，而算法却会忽略这一点，因为抗议者的肢体动作尚未与预设的“暴力”模式相符。

处理歧义

面对模糊或不清的图像，人类会运用直觉和逻辑来猜测图像内容，而且往往准确率很高。而数据驱动系统则很容易被几个位置错误的像素（即对抗性攻击）所“欺骗”，导致它自信地将停车标志误识别为冰箱。人类依赖于“整体”信息，而机器则常常过度关注细粒度的数据点。

学习与进化

人类的感知能力是在与世界进行终生物理互动的过程中不断完善的，从而对物理规律和社会规则有了深刻的理解。而机器则通过“蛮力”式地接触标记数据集来学习。虽然机器识别猫的速度比人类浏览上千张照片的速度还要快，但它却缺乏对猫的生物学认知——猫是一种活生生的、会呼吸的生物。

优点与缺点

情绪感知

优点

+ 卓越的社会意识
+ 理解抽象概念
+ 所需数据量极少。
+ 擅长即兴发挥

继续

− 容易分心
− 受情绪影响
− 缺乏数学精确性
− 容易产生视觉错觉

数据驱动的愿景

优点

+ 惊人的处理速度
+ 不受疲惫影响的偏见
+ 探测非可见光
+ 可扩展到硬件

继续

− 没有固有的常识
− 易受数据噪声影响
− 需要大量能量
− 缺乏创造性的诠释

常见误解

神话

人工智能看待世界的方式和我们人类完全一样。

现实

算法并不“看到”形状；它们看到的是数字数组。它们可以识别椅子，而无需理解“坐”的概念或椅子的用途。

神话

相机和人工智能是百分之百客观的。

现实

由于训练数据和参数是由人选择的，因此机器视觉往往会继承现实世界中存在的文化和种族偏见。

神话

我们的眼睛就像摄像机一样工作。

现实

事实上，我们的大部分视觉信息都是大脑根据预期“想象”出来的。每只眼睛都有一个盲点，大脑会不断地用估计数据来填补这个盲点。

神话

数据驱动的视觉判断总是比人类的判断更准确。

现实

在像繁忙的建筑工地这样复杂、不可预测的环境中，人类根据意图预测动作的能力仍然远远优于任何当前的人工智能。

常见问题解答

机器真的能够理解“美”吗？

机器可以根据黄金分割等数学比例，或者分析人类以往对美的定义来识别“美”。然而，它们不会像人类那样体验到情感上的“敬畏”或生理反应。对机器而言，美仅仅是在特定审美标准上获得高分而已。

为什么我的情绪会影响我看待事物的方式？

大脑的化学状态，例如多巴胺或皮质醇的激增，实际上会改变视觉皮层处理信息的方式。当你感到压力时，大脑会优先处理高对比度的运动和威胁，而常常忽略那些你在放松状态下会注意到的美丽或微妙的细节。

用于驾驶时，计算机视觉比人类视觉更安全吗？

计算机视觉在保持360度全方位视野和微秒级反应速度方面更胜一筹。然而，人类仍然更擅长理解“极端情况”，例如意识到滚到马路上的球很可能意味着有个孩子正要追过去。目前最安全的系统结合了这两种技术。

不同文化看待世界的方式是否不同？

是的，研究表明，有些文化更注重图像的中心物体，而另一些文化则更重视背景以及物体之间的关系。这种“整体性”与“分析性”的观看方式，完美地诠释了情感和成长环境如何塑造感知。

机器本身没有感觉，它们如何识别情绪？

他们使用一种叫做面部动作编码的技术。通过测量面部特定点之间的距离——例如嘴角或眉毛之间——他们可以根据数百万张参考照片，将这些动作与“快乐”或“悲伤”等标签关联起来。

数据驱动的视觉会被艺术所欺骗吗？

没错。高度逼真的“错视画”很容易让机器误以为一面平面的墙壁是一个三维走廊。因为它们缺乏物理“存在感”，所以机器有时无法区分真实物体和逼真的二维图像。

机器视觉中的“语义鸿沟”是什么？

语义鸿沟指的是将低层次的像素数据转化为高层次的人类概念的困难。机器可以告诉你有一个“红圈”（低层次概念），但它可能无法理解这个红圈在特定的文化语境中实际上是一个“危险”标志（高层次概念）。

人工智能将来会拥有“感觉”吗？

真正的情感需要生物体和能够体验后果的神经系统。虽然我们可以用代码模拟这些反应，但这仍然只是数学上的近似。除非人工智能能够“恐惧”自身的存在或“爱”于创造者，否则它的感知将始终是纯粹的数据驱动。

裁决

当你需要理解意图、细微差别或需要同理心的社会动态时，运用情感感知。当你需要高速精准的判断、全天候监控或检测人眼无法分辨的技术细节时，依靠数据驱动的视觉。

用情感看待事物与用数据看待事物

亮点

情绪感知是什么？

数据驱动的愿景是什么？

比较表

详细对比

情境的力量

客观数学 vs. 主观感受

处理歧义

学习与进化

优点与缺点

情绪感知

优点

继续

数据驱动的愿景

优点

继续

常见误解

常见问题解答

裁决

相关比较

AI飞行员与AI基础设施的比较

AI辅助编码与手动编码

AI作为副驾驶 vs AI作为替代

Vibe编码与结构化工程的区别

创新工具与实用解决方案