绪论
前置知识
滤波器与卷积核
图像直方图
图像的本质:像素矩阵
一张数字图像,尤其是我们这里讨论的灰度图,可以被理解为一个二维矩阵。 矩阵中的每一个元素都代表一个像素,其数值被称为像素值或灰度值,表示该点的亮度。 通常,这个值用一个字节(8位)来表示,范围从0到255,其中0代表最暗的黑色,255代表最亮的白色。
什么是图像直方图
图像直方图是一种图形化的表示方法,它显示了一张图像中亮度(灰度)值的分布频率,即统计从0到255的每一个灰度级在这张图像中总共出现了多少次。
将二维的像素空间变换为一维的统计分布。 这让我们能从一个宏观的、统计学的角度来理解图像的整体色调分布。
应用实例
辅助目标检测,减少误报
在目标检测任务中,算法可能会将一些背景区域误判为目标(例如,将一块纹理复杂的背景识别为人脸)。 此时,直方图可以提供一个有效的判别依据。
辅助医疗诊断
图像变换函数
我们将研究如何主动地修改这些像素值,从而创造出一张新的图像。
函数定义
一个图像可以被定义为一个函数
数学表达
对于一个矩形图像,这个函数关系可以写成
其中
彩色图像:这个概念同样适用,只是函数的输出不再是一个单一的数值,而是一个包含红 (R)、绿 (G)、蓝 (B) 三个通道值的向量:
直方图本身就是图像变换函数的一种。它将整个二维坐标空间
变换操作:对函数进行运算
对像素值进行运算
例如:
这个操作会遍历每一个坐标
对坐标进行运算
例如:
这个操作在计算新图像
如果我们想让新像素值不仅与当前点有关,还受到其周围邻近像素的影响,应该怎么做呢?
图像滤波
什么是图像滤波,为何需要它
图像滤波定义
图像滤波是生成新图像的过程,其中每个新像素的值由原始图像对应位置及其局部邻域的像素值共同决定。也就是说,计算新图像某一点时,需要参考该点及其周围的一小块区域的像素信息。
目的
我们进行滤波是为了从图像中提取有用信息或增强图像,包括:
- 增强与美化:去除噪声、平滑或锐化图像,使其更清晰。
- 特征提取:提取物体的边缘或轮廓,为后续形状识别提供基础。
核心机制:卷积核 (Kernel) 与卷积 (Convolution)
边缘检测
Course 10 注意力和Transformers
前置问题
- 从NLP跨界到CV的里程碑工作是什么?
- BERT、GPT-3、T5这些模型都是什么机制?
- 这两种注意力机制有什么共同点和差异?
注意力(空间特征 v.s. 注意力)
生成模型
前置问题
- 自编码器(AE)是什么?AE和变分自编码器(VAE)有什么区别?
- GAN的灵感来源是什么?
- 生成式模型与判别式模型的区别是什么?
PixelCNN
完全可见置信网络 (Fully Visible Belief Networks, FVBN)
FVBN的概率分解机制
FVBN 将
其中,每个条件概率
即按照固定的顺序一块一块地拼图,而且每一步都要计算下一块拼图该怎么放。
其属于显式密度建模 (Explicit Density Modeling) 的范畴,
定义
显式密度建模是指通过数学形式显式地定义概率密度函数
其中,图像x
被视为一个n
维的随机向量,x₁
到xₙ
是它的各个分量,即图像中的每一个像素。
因此,n
个像素的联合概率分布。该模型的挑战在于,图像像素之间存在着复杂的空间依赖关系,导致这个联合分布的维度极高且结构复杂。