《视觉：对人类如何表示和处理视觉信息的计算研究》/《Vision》

Description

想知道你的眼睛看到的世界，和大脑“理解”的世界之间，隔了多少层复杂的计算吗？🤯 这本《视觉》就是解开这个秘密的钥匙。它彻底改变了我们思考视觉、大脑甚至人工智能的方式。

一句话总结：视觉不是简单的“看见”，而是一个从2D图像重建3D世界的多层次信息处理过程。

🧠 马尔的三层次分析法 | 全书灵魂

要理解任何复杂的信息处理系统（比如视觉），必须回答三个问题：

✨ 这套方法论，就像一把手术刀，把“看”这个模糊的过程，剖析得清清楚楚。

🚀 视觉处理的三大步 | 从像素到认知

马尔描绘了一条从眼睛到大脑的“视觉流水线”：

1️⃣ 原始简图 (Primal Sketch)大脑收到像素图像后，第一件事不是找猫找狗，而是先画一张“草图”。它用符号（点、线、边缘）标出图像里所有亮度变化的地方。这就像把一张照片变成了一幅结构清晰的速写。

2️⃣ 2.5-D 简图 (2.5-D Sketch)接下来，大脑的各个“专家模块”（比如负责立体视觉的、负责运动感知的）开始工作，计算出视野中每个“表面”的朝向和大致远近。这张图是“以我为中心”的，所以叫2.5-D。你看到的是一张连续的、有起伏的表面，而不是零散的物体。

3️⃣ 3-D 模型 (3-D Model)最后一步最关键！大脑把“以我为中心”的表面图，转换成“以物体为中心”的稳定模型。比如，无论你从哪个角度看一只杯子，大脑都会构建一个基于“杯子轴心”的稳定结构。这才是我们能认出万事万物的核心。

💡 为什么这本书是神作？

因为它不仅提出了一个关于视觉的完整理论，更重要的是，它教会我们一种思考方式：面对复杂问题时，首先要定义清楚问题本身（计算理论），而不是一头扎进实现细节里。

这本书有点硬核，但读懂它，你看待世界、AI甚至自己的方式，都会焕然一新。准备好开启一场大脑的探险了吗？🚀

完整笔记https://mp.weixin.qq.com/s/U5dCNN1b0qwmwtPGh8V-FA