Listen

Description

想知道你的眼睛看到的世界,和大脑“理解”的世界之间,隔了多少层复杂的计算吗?🤯 这本《视觉》就是解开这个秘密的钥匙。它彻底改变了我们思考视觉、大脑甚至人工智能的方式。

一句话总结:视觉不是简单的“看见”,而是一个从2D图像重建3D世界的多层次信息处理过程。

🧠 马尔的三层次分析法 | 全书灵魂

要理解任何复杂的信息处理系统(比如视觉),必须回答三个问题:

  1. 计算理论 (Why & What):目标是什么?为什么能做到?(这是最高层,也是最重要的!)
  2. 算法与表达 (How):具体怎么算?信息用什么格式表示?
  3. 硬件实现 (With What):用什么物理载体实现?(对大脑来说就是神经元)

✨ 这套方法论,就像一把手术刀,把“看”这个模糊的过程,剖析得清清楚楚。

🚀 视觉处理的三大步 | 从像素到认知

马尔描绘了一条从眼睛到大脑的“视觉流水线”:

1️⃣ 原始简图 (Primal Sketch)大脑收到像素图像后,第一件事不是找猫找狗,而是先画一张“草图”。它用符号(点、线、边缘)标出图像里所有亮度变化的地方。这就像把一张照片变成了一幅结构清晰的速写。

2️⃣ 2.5-D 简图 (2.5-D Sketch)接下来,大脑的各个“专家模块”(比如负责立体视觉的、负责运动感知的)开始工作,计算出视野中每个“表面”的朝向和大致远近。这张图是“以我为中心”的,所以叫2.5-D。你看到的是一张连续的、有起伏的表面,而不是零散的物体。

3️⃣ 3-D 模型 (3-D Model)最后一步最关键!大脑把“以我为中心”的表面图,转换成“以物体为中心”的稳定模型。比如,无论你从哪个角度看一只杯子,大脑都会构建一个基于“杯子轴心”的稳定结构。这才是我们能认出万事万物的核心。

💡 为什么这本书是神作?

因为它不仅提出了一个关于视觉的完整理论,更重要的是,它教会我们一种思考方式:面对复杂问题时,首先要定义清楚问题本身(计算理论),而不是一头扎进实现细节里。

这本书有点硬核,但读懂它,你看待世界、AI甚至自己的方式,都会焕然一新。准备好开启一场大脑的探险了吗?🚀

完整笔记https://mp.weixin.qq.com/s/U5dCNN1b0qwmwtPGh8V-FA