计算机视觉基础｜从 OpenCV 到频域分析

一、引言

在当今数字化时代，图像处理已渗透到我们生活的方方面面，从日常使用的智能手机拍照美化，到医学领域的精准诊断，再到自动驾驶中的环境感知，其重要性不言而喻。在图像处理领域中，OpenCV 和频域分析，成为众多开发者和研究者不可或缺的强大工具。

OpenCV 作为一个开源且功能强大的计算机视觉库，提供了丰富的图像处理算法和工具，涵盖图像滤波、特征提取、目标检测等众多领域。其简单易用的接口，使得开发者能够快速搭建图像处理应用，大大降低了开发门槛。无论是刚入门的新手，还是经验丰富的专家，都能在 OpenCV 中找到解决问题的方法。

而频域分析则从另一个维度揭示了图像的奥秘。通过傅里叶变换等数学工具，将图像从空间域转换到频率域，我们可以深入了解图像的频率特性。低频部分代表着图像的平滑区域和大致轮廓，高频部分则对应着图像的细节、边缘和纹理。这种全新的视角为图像处理带来了更多的可能性，如频域滤波可以有效地去除噪声、增强图像的特定频率成分，从而实现图像的去噪、锐化等操作。

接下来，让我们一同深入探索 OpenCV 和频域分析技术。

二、OpenCV：图像处理的基石

2.1 OpenCV 简介

OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉库，最初由英特尔公司于 1999 年创建，后逐渐发展成为全球开发者广泛使用的重要工具。它具有跨平台的特性，能够在 Windows、Linux、macOS、Android 和 iOS 等多种操作系统上稳定运行，为不同平台的开发者提供了一致的开发体验。同时，OpenCV 支持 C++、Python、Java 等多种编程语言，开发者可以根据自身的技术栈和项目需求选择熟悉的语言进行开发，极大地降低了学习成本和开发门槛。

OpenCV 拥有超过 2500 个优化算法和函数，涵盖了图像处理、特征检测与提取、物体识别与跟踪、摄像机标定、深度估计等众多计算机视觉领域。从简单的图像滤波、边缘检测，到复杂的目标检测、人脸识别，OpenCV 都提供了丰富且高效的解决方案。其广泛应用于安防监控、自动驾驶、医学影像分析、工业检测、娱乐等多个领域，在安防监控中，利用 OpenCV 可以实现实时的目标检测与跟踪，保障公共安全；在自动驾驶领域，它助力车辆实现环境感知，识别道路、行人与障碍物，为自动驾驶的安全性和可靠性提供支持。

2.2 核心功能

图像读取、显示与保存：
- cv2.imread() 函数可以从文件中读取图像，支持多种常见的图像格式，如 JPEG、PNG、BMP 等。
- cv2.imshow() 函数用于在窗口中显示图像，方便开发者直观地查看处理结果。
- cv2.imwrite() 函数则能够将处理后的图像保存到指定路径，保存格式也可根据文件扩展名自动识别。
在图像预处理阶段，读取图像是第一步操作，通过读取图像，后续才能进行各种处理，而显示图像可以帮助开发者实时查看处理效果，保存图像则是将最终结果留存。
色彩空间转换：现实生活中，不同的场景和需求需要使用不同的色彩空间来表示图像。OpenCV 提供了cv2.cvtColor() 函数，能够实现多种色彩空间之间的转换，如将常见的 BGR（Blue, Green, Red）颜色空间转换为灰度图、HSV（Hue, Saturation, Value）颜色空间等。在图像识别中，将彩色图像转换为灰度图可以简化计算，提高处理效率；而在基于颜色的目标检测中，HSV 颜色空间更有利于对特定颜色的物体进行检测。
几何变换：
- cv2.resize()函数可对图像进行缩放操作，调整图像的大小，以适应不同的应用场景，如在图像压缩或适配不同分辨率的显示设备时经常用到。
- cv2.rotate()函数用于图像的旋转，能够按照指定的角度或方向旋转图像，这在图像矫正、图像增强等方面有重要应用。
- cv2.warpAffine()函数实现了仿射变换，通过对图像进行平移、旋转、缩放等组合操作，可实现图像的几何变换，常用于图像配准、目标定位等任务。
滤波：在图像采集和传输过程中，图像常常会受到噪声的干扰，影响图像的质量和后续处理。OpenCV 提供了多种滤波函数，如:
- 均值滤波 cv2.blur(): 通过计算邻域像素的平均值来平滑图像，去除噪声；
- 高斯滤波 cv2.GaussianBlur(): 根据高斯分布对邻域像素进行加权平均，在去除高斯噪声方面效果显著；
- 中值滤波 cv2.medianBlur() : 用邻域像素的中值代替中心像素的值，对于椒盐噪声有很好的抑制作用。
  
  这些滤波操作在图像去噪、平滑处理中发挥着关键作用，能够提高图像的清晰度和可用性。
边缘检测：边缘是图像中重要的特征之一，它反映了图像中物体的轮廓和结构信息。OpenCV 中的 cv2.Canny() 函数是常用的边缘检测算法，它通过计算图像的梯度幅值和方向，结合双阈值检测和边缘跟踪，能够准确地检测出图像的边缘。在目标识别、图像分割等应用中，边缘检测是提取目标特征的重要步骤，为后续的分析和处理提供基础。

2.3 关键函数实战使用

图像读取、显示与保存：

import cv2# 读取图像，'./resource/image.jpg'为图像路径，cv2.IMREAD_COLOR表示以彩色模式读取image = cv2.imread('./resource/image.jpg', cv2.IMREAD_COLOR)# 显示图像，窗口标题为'Original Image'cv2.imshow('Original Image', image)# 等待按键，0表示无限期等待，直到有按键按下cv2.waitKey(0)# 保存图像为'./resource/new_image.jpg'cv2.imwrite('./resource/new_image.jpg', image)# 关闭所有窗口cv2.destroyAllWindows()

色彩空间转换（以 BGR 转灰度图为例）：

import cv2# 读取图像image = cv2.imread('./resource/image.jpg')# 将BGR图像转换为灰度图gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)# 显示灰度图，窗口标题为'Gray Image'cv2.imshow('Gray Image', gray_image)cv2.waitKey(0)cv2.destroyAllWindows()

高斯滤波：

import cv2# 读取图像image = cv2.imread('./resource/image.jpg')# 进行高斯滤波，ksize=(5, 5)表示卷积核大小为5x5，sigmaX=0表示X方向的标准差由函数自动计算blurred_image = cv2.GaussianBlur(image, (5, 5), 0)# 显示滤波后的图像，窗口标题为'Blurred Image'cv2.imshow('Blurred Image', blurred_image)cv2.waitKey(0)cv2.destroyAllWindows()

在上述代码中：

cv2.imread() 函数的第一个参数为图像的路径，第二个参数指定了读取图像的方式
cv2.IMREAD_COLOR 为默认参数，表示以彩色模式读取图像；
cv2.imshow() 函数的第一个参数是窗口的名称，第二个参数是要显示的图像；
cv2.waitKey() 函数用于等待按键事件，参数为等待的时间（毫秒），0 表示无限期等待；
cv2.imwrite() 函数的第一个参数是保存的文件名，第二个参数是要保存的图像；
cv2.cvtColor() 函数的第一个参数是输入图像，第二个参数是颜色空间转换的标志，这里cv2.COLOR_BGR2GRAY表示将 BGR 颜色空间转换为灰度图；
cv2.GaussianBlur() 函数的第一个参数是输入图像，第二个参数 ksize 是高斯核的大小，必须是正奇数，第三个参数 sigmaX 是 X 方向的高斯核标准差，sigmaY 若未指定则默认与 sigmaX 相同。通过这些函数的组合使用，我们可以实现对图像的基本操作和处理。

在这里插入图片描述

三、频域分析：图像处理的新视角

3.1 频域分析基础

在图像处理中，我们常常会遇到时域和频域这两个概念。时域是我们日常生活中最熟悉的概念，它描述的是信号随时间的变化情况。在图像中，时域可以理解为图像中每个像素的空间位置，我们看到的图像就是像素在空间上的分布，通过像素的颜色和亮度来呈现图像的内容。而频域则是从另一个角度来描述信号，它关注的是信号中不同频率成分的组成和分布。

对于图像来说，低频和高频分别代表了不同的图像特征。低频部分对应着图像中变化缓慢的区域，也就是大面积的平滑区域和大致的轮廓。例如，在一幅风景图像中，广阔的天空、平坦的草地等区域，它们的颜色和亮度变化相对较小，这些部分就主要由低频成分来表示。低频成分决定了图像的基本形状和整体结构，是图像的 “骨架” 。

高频部分则对应着图像中变化快速的区域，通常是图像的细节、边缘和纹理。比如，在上述风景图像中，树木的枝叶、建筑物的边缘等，这些地方的颜色和亮度变化较为剧烈，反映在频域中就是高频成分。高频成分赋予了图像丰富的细节和纹理信息，让图像看起来更加生动和真实。

3.2 傅里叶变换原理

傅里叶变换是将图像从空域（即我们通常看到的像素空间）转换到频域的重要数学工具。其核心思想 是，任何一个周期函数（在图像中，我们可以将图像看作是一个二维的周期函数）都可以表示为不同频率的正弦函数和余弦函数的叠加。

对于一幅二维图像 $f (x, y)$ ，其二维傅里叶变换的数学表达式为：

$\sum_{x = 0}^{M - 1} \sum_{y = 0}^{N - 1} f(x, y) \cdot e^{-j2\pi(\frac{ux}{M} + \frac{vy}{N})}$

其中:

$F (u, v)$ 表示频域中的频率分量，它是一个复数，包含了幅度和相位信息；
$f (x, y)$ 是空域中的像素值；
$M$ 和 $N$ 分别是图像的宽度和高度；
$u$ 和 $v$ 是频域中的坐标，表示不同的频率；
$e^{-j2\pi(\frac{ux}{M} + \frac{vy}{N})}$ 是复指数函数， $j$ 是虚数单位， $2\pi$ 是圆周率的两倍，这个复指数函数在傅里叶变换中起到了关键作用，它将空域中的像素值与频域中的频率联系起来。

幅度信息反映了不同频率成分在图像中的相对强度，幅度越大，说明该频率成分在图像中的贡献越大。相位信息则决定了各个频率成分在空间中的位置和相对关系，虽然在很多情况下，我们主要关注幅度信息，但相位信息对于完整地恢复原始图像是不可或缺的。

3.3 图像傅里叶变换步骤

1. 将图像转为灰度图：在进行傅里叶变换之前，如果图像是彩色图像，通常需要先将其转换为灰度图。这是因为彩色图像包含多个颜色通道（如 RGB 三个通道），而傅里叶变换通常是针对单通道的图像进行处理。将彩色图像转换为灰度图可以简化计算，并且在很多情况下，灰度图像已经包含了足够的信息用于后续的分析和处理。常见的转换方法是根据人眼对不同颜色的敏感度，通过加权平均的方式将 RGB 三个通道的值合并为一个灰度值。

2. 零填充：为了提高傅里叶变换的计算效率和准确性，通常会对灰度图像进行零填充操作，使其尺寸变为 2 的整数次幂。这是因为快速傅里叶变换（FFT）算法在处理 2 的整数次幂大小的数据时具有更高的效率。同时，零填充还可以避免频谱泄露问题，使得频域分析的结果更加准确。例如，如果原始图像的大小为 $300\times400$ ，我们可以将其填充为 $512\times512$ ，在图像的边缘添加相应数量的零值像素。

3. 进行二维离散傅里叶变换：对零填充后的图像应用二维离散傅里叶变换（2D DFT），可以使用快速傅里叶变换（FFT）算法来加速计算过程。FFT 是一种高效的计算离散傅里叶变换的算法，它通过巧妙地利用复数的性质和对称性，将计算复杂度从 $O(N^2)$ 降低到 $O(N\log N)$ ，大大提高了计算速度。经过这一步骤，我们得到了图像的频域表示，其中包含了图像的低频和高频信息。

4. 移动频谱：在进行傅里叶变换后，得到的频谱中低频分量位于图像的中心，而高频分量分布在四周。为了更方便地观察和处理频谱，通常需要将低频和高频分量移动到图像的中心，使频谱的分布更加直观。这可以通过对频域矩阵进行平移操作来实现，具体来说，就是将频域矩阵的左上角和右下角、右上角和左下角的部分进行交换，从而实现频谱的移动。

四、OpenCV 与频域分析的融合

4.1 OpenCV 中的傅里叶变换函数

在 OpenCV 中，实现频域分析的核心是一组与傅里叶变换相关的函数，这些函数为我们在频域中处理图像提供了便捷的工具。

cv2.dft：该函数用于计算离散傅里叶变换（DFT），将图像从空间域转换到频率域。它的基本语法为 cv2.dft(src, dst=None, flags=None, nonzeroRows=None)，其中 src 是输入图像，必须是浮点型（如 np.float32 ）数据，以确保计算的准确性和精度。flags 参数是一个重要的选项，常用的标志有
- cv2.DFT_COMPLEX_OUTPUT，表示输出结果为复数形式，这对于后续计算幅度和相位至关重要；
- cv2.DFT_REAL_OUTPUT表示输出为实数结果；
- cv2.DFT_SCALE 用于对输出结果进行缩放，以适应不同的应用需求。
  
  例如，在进行图像去噪时，我们需要先将图像转换到频域，就可以使用 cv2.dft 函数。
cv2.idft：用于计算离散傅里叶反变换（IDFT），将频域图像转换回空间域，实现图像的还原。其语法为 cv2.idft(src, dst=None, flags=None, nonzeroRows=None)，src 为经过 cv2.dft 变换后的频域图像，flags 参数同样影响着变换的方式，如 cv2.DFT_SCALE 结合 cv2.DFT_REAL_OUTPUT 可将结果缩放并转换为实数输出，常用于将频域滤波后的图像恢复到可显示或进一步处理的空间域图像。
cv2.magnitude：计算复数矩阵的幅度，在傅里叶变换后，用于计算频域图像中每个点的幅度值。语法为 cv2.magnitude(x, y)，其中 x 和 y 分别是复数的实部和虚部，通常是cv2.dft输出结果的两个通道。幅度值反映了不同频率成分在图像中的强度，通过计算幅度，我们可以直观地观察到图像中不同频率成分的分布情况。
cv2.phase：计算复数矩阵的相位，语法为 cv2.phase(x, y[, angle[, angleInDegrees]])，x 和 y 同样是复数的实部和虚部，angleInDegrees 是一个可选参数，为 True 时表示输出的相位以度为单位，否则以弧度为单位。相位信息在图像重建和某些特定的图像处理任务中起着关键作用，虽然在一些常见的图像处理操作中，我们更多地关注幅度信息，但相位对于完整地还原图像的原始结构和细节是不可或缺的。

4.2 案例实操：低通滤波与高通滤波

下面通过具体的代码示例，展示如何在 OpenCV 中利用频域分析进行低通滤波和高通滤波操作，并分析它们对图像高频和低频成分的影响。

低通滤波：低通滤波的目的是保留图像的低频成分，去除高频成分，从而达到平滑图像、去除噪声的效果。高频成分通常对应图像中的噪声和细节，而低频成分代表图像的大致轮廓和缓慢变化的区域。通过低通滤波，我们可以使图像变得更加平滑，减少噪声的干扰。

import cv2
import numpy as np
import matplotlib.pyplot as plt# 读取图像并转换为灰度图
img = cv2.imread('./resource/learn.jpg', 0)# 进行二维离散傅里叶变换
dft = cv2.dft(np.float32(img), flags=cv2.DFT_COMPLEX_OUTPUT)# 将低频部分移到图像中心
dft_shift = np.fft.fftshift(dft)# 计算幅度谱
magnitude_spectrum = 20 * np.log(cv2.magnitude(dft_shift[:, :, 0], dft_shift[:, :, 1]))# 构建低通滤波器，这里以半径为50的圆形滤波器为例
rows, cols = img.shape
crow, ccol = int(rows / 2), int(cols / 2)
mask = np.zeros((rows, cols, 2), np.float32)
mask[crow - 50:crow + 50, ccol - 50:ccol + 50] = 1# 应用低通滤波器
fshift = dft_shift * mask# 进行逆傅里叶变换
ishift = np.fft.ifftshift(fshift)
iimg = cv2.idft(ishift)
iimg = cv2.magnitude(iimg[:, :, 0], iimg[:, :, 1])# 显示原始图像、幅度谱和低通滤波后的图像
plt.subplot(131), plt.imshow(img, cmap='gray')
plt.title('Original Image'), plt.xticks([]), plt.yticks([])
plt.subplot(132), plt.imshow(magnitude_spectrum, cmap='gray')
plt.title('Magnitude Spectrum'), plt.xticks([]), plt.yticks([])
plt.subplot(133), plt.imshow(iimg, cmap='gray')
plt.title('Low - Pass Filtered Image'), plt.xticks([]), plt.yticks([])
plt.show()

在上述代码中，我们首先读取图像并将其转换为灰度图，然后进行傅里叶变换并将低频部分移到图像中心，以便于后续处理。接着，我们构建了一个半径为 50 的圆形低通滤波器，通过将滤波器与频域图像相乘，实现低通滤波。最后，经过逆傅里叶变换，将滤波后的频域图像转换回空间域，得到低通滤波后的图像。
在这里插入图片描述
从结果可以看出，低通滤波后的图像变得更加平滑，噪声得到了有效抑制，但同时图像的细节也有所丢失，这是因为高频成分被去除，而高频成分包含了图像的细节信息。

高通滤波：高通滤波与低通滤波相反，它保留图像的高频成分，去除低频成分，主要用于增强图像的边缘和细节。低频成分通常对应图像的平滑区域，去除低频可以突出图像中变化剧烈的部分，即边缘和纹理。

import cv2
import numpy as np
import matplotlib.pyplot as plt# 读取图像并转换为灰度图
img = cv2.imread('./resource/learn.jpg', 0)# 进行二维离散傅里叶变换
dft = cv2.dft(np.float32(img), flags=cv2.DFT_COMPLEX_OUTPUT)# 将低频部分移到图像中心
dft_shift = np.fft.fftshift(dft)# 计算幅度谱
magnitude_spectrum = 20 * np.log(cv2.magnitude(dft_shift[:, :, 0], dft_shift[:, :, 1]))# 构建高通滤波器，这里以半径为30的圆形滤波器为例
rows, cols = img.shape
crow, ccol = int(rows / 2), int(cols / 2)
mask = np.ones((rows, cols, 2), np.float32)
mask[crow - 30:crow + 30, ccol - 30:ccol + 30] = 0# 应用高通滤波器
fshift = dft_shift * mask# 进行逆傅里叶变换
ishift = np.fft.ifftshift(fshift)
iimg = cv2.idft(ishift)
iimg = cv2.magnitude(iimg[:, :, 0], iimg[:, :, 1])# 显示原始图像、幅度谱和低通滤波后的图像
plt.subplot(121), plt.imshow(img, cmap='gray')
plt.title('Original Image'), plt.xticks([]), plt.yticks([])plt.subplot(122), plt.imshow(iimg, cmap='gray')
plt.title('High - Pass Filtered Image'), plt.xticks([]), plt.yticks([])
plt.show()

在这段代码中，我们同样先对图像进行傅里叶变换和频谱中心化。然后构建了一个半径为 30 的圆形高通滤波器，将滤波器与频域图像相乘，实现高通滤波。最后通过逆傅里叶变换得到高通滤波后的图像。
在这里插入图片描述
从结果可以看到，高通滤波后的图像边缘和细节更加突出，图像变得更加锐利，但同时图像的平滑区域也受到了一定影响，出现了一些噪声增强的现象，这是因为低频成分被去除，而低频成分在一定程度上起到了平滑图像的作用。

五、应用拓展与实践

5.1 图像去噪

在图像采集和传输过程中，噪声的干扰是一个常见的问题，它会降低图像的质量，影响后续的分析和处理。频域分析为图像去噪提供了一种有效的解决方案。

噪声在图像中通常表现为高频成分，这是因为噪声的变化较为剧烈，反映在频域上就是高频信号。而图像中的有用信息，如物体的轮廓、大面积的平滑区域等，主要由低频成分组成。基于这个特性，我们可以利用低通滤波器在频域中去除高频噪声，保留低频的有用信息。

以高斯噪声为例，它是一种常见的噪声类型，其概率密度函数服从高斯分布。在实际的图像中，高斯噪声可能是由于传感器的电子干扰、图像传输过程中的干扰等原因产生的。通过傅里叶变换将含有高斯噪声的图像转换到频域后，我们可以观察到高频部分的能量明显增强，这些增强的高频部分就对应着噪声。

下面是使用 Python 和 OpenCV 进行图像去噪的代码示例：

import cv2
import numpy as np
import matplotlib.pyplot as plt# 读取图像并转换为灰度图
img = cv2.imread('./resource/learn.jpg', 0)# 进行二维离散傅里叶变换
dft = cv2.dft(np.float32(img), flags=cv2.DFT_COMPLEX_OUTPUT)# 将低频部分移到图像中心
dft_shift = np.fft.fftshift(dft)# 计算幅度谱
magnitude_spectrum = 20 * np.log(cv2.magnitude(dft_shift[:, :, 0], dft_shift[:, :, 1]))# 构建低通滤波器，这里以半径为30的圆形滤波器为例
rows, cols = img.shape
crow, ccol = int(rows / 2), int(cols / 2)
mask = np.zeros((rows, cols, 2), np.float32)
mask[crow - 30:crow + 30, ccol - 30:ccol + 30] = 1# 应用低通滤波器
fshift = dft_shift * mask# 进行逆傅里叶变换
ishift = np.fft.ifftshift(fshift)
iimg = cv2.idft(ishift)
iimg = cv2.magnitude(iimg[:, :, 0], iimg[:, :, 1])# 显示原始噪声图像、幅度谱和去噪后的图像
plt.subplot(121), plt.imshow(img, cmap='gray')
plt.title('Sorce Image'), plt.xticks([]), plt.yticks([])
plt.subplot(122), plt.imshow(iimg, cmap='gray')
plt.title('Denoised Image'), plt.xticks([]), plt.yticks([])
plt.show()

在上述代码中，我们首先读取了一张含有噪声的图像并将其转换为灰度图。接着进行傅里叶变换和频谱中心化，然后构建了一个半径为 30 的圆形低通滤波器。通过将低通滤波器与频域图像相乘，实现了对高频噪声的抑制。最后，经过逆傅里叶变换，将滤波后的频域图像转换回空间域，得到了去噪后的图像。在这里插入图片描述
从结果可以明显看出，去噪后的图像噪声得到了有效去除，图像变得更加平滑，同时保留了大部分的低频有用信息，如物体的轮廓等。

5.2 特征提取

频域分析在图像特征提取方面具有独特的优势，能够帮助我们提取图像中的边缘、纹理等重要特征，为后续的图像识别、目标检测等任务提供有力支持。

图像的边缘和纹理是图像中非常重要的特征，它们反映了图像中物体的形状、结构和细节信息。在频域中，边缘和纹理通常对应着高频成分。因为边缘是图像中像素值变化剧烈的地方，而纹理则是由一系列具有一定规律的高频变化组成。通过高通滤波器可以增强这些高频成分，从而突出图像的边缘和纹理特征。

以 Sobel 算子为例，它是一种常用的边缘检测算子，在空域中通过卷积操作来计算图像的梯度，从而检测出边缘。而在频域中，我们可以通过设计合适的高通滤波器来实现类似的效果。高通滤波器可以抑制低频成分，保留高频成分，使得图像的边缘和纹理更加明显。

下面是使用频域分析进行边缘特征提取的代码示例：

import cv2
import numpy as np
import matplotlib.pyplot as plt# 读取图像并转换为灰度图
img = cv2.imread('./resource/learn.jpg', 0)# 进行二维离散傅里叶变换
dft = cv2.dft(np.float32(img), flags=cv2.DFT_COMPLEX_OUTPUT)# 将低频部分移到图像中心
dft_shift = np.fft.fftshift(dft)# 计算幅度谱
magnitude_spectrum = 20 * np.log(cv2.magnitude(dft_shift[:, :, 0], dft_shift[:, :, 1]))# 构建高通滤波器，这里以半径为20的圆形滤波器为例
rows, cols = img.shape
crow, ccol = int(rows / 2), int(cols / 2)
mask = np.ones((rows, cols, 2), np.float32)
mask[crow - 20:crow + 20, ccol - 20:ccol + 20] = 0# 应用高通滤波器
fshift = dft_shift * mask# 进行逆傅里叶变换
ishift = np.fft.ifftshift(fshift)
iimg = cv2.idft(ishift)
iimg = cv2.magnitude(iimg[:, :, 0], iimg[:, :, 1])# 显示原始噪声图像、幅度谱和去噪后的图像
plt.subplot(121), plt.imshow(img, cmap='gray')
plt.title('Sorce Image'), plt.xticks([]), plt.yticks([])
plt.subplot(122), plt.imshow(iimg, cmap='gray')
plt.title('Denoised Image'), plt.xticks([]), plt.yticks([])
plt.show()

在这段代码中，我们同样先对图像进行傅里叶变换和频谱中心化。然后构建了一个半径为 20 的圆形高通滤波器，将其与频域图像相乘，实现了对高频成分的增强。最后通过逆傅里叶变换得到了边缘提取后的图像。在这里插入图片描述
从结果可以看到，边缘提取后的图像中，物体的边缘变得更加清晰和突出，图像的纹理细节也得到了增强。

5.3 图像压缩

在当今数字化信息飞速发展的时代，图像数据的存储和传输面临着巨大的挑战。随着图像分辨率的不断提高和数据量的日益增大，如何在保证图像质量的前提下，有效地减少图像数据的存储空间和传输带宽，成为了图像处理领域的一个关键问题。频域分析在图像压缩中发挥着重要的作用，为解决这一问题提供了有效的途径。

图像压缩的基本原理是去除图像中的冗余信息，从而减少数据量。在频域中，图像的信息主要由低频分量和高频分量组成。低频分量代表了图像的大致轮廓和主要结构，对图像的视觉感知起着关键作用；而高频分量主要包含图像的细节、纹理和噪声等信息。由于人眼对低频信息更为敏感，对高频信息的敏感度相对较低，因此在图像压缩中，可以适当丢弃一部分高频分量，而不会对图像的主要视觉效果产生明显影响。

以 JPEG 图像压缩标准为例，它就是基于离散余弦变换（DCT）这一频域分析技术来实现的。DCT 是一种类似于傅里叶变换的正交变换，它能够将图像从空间域转换到频域，将图像信号分解为不同频率的余弦函数的加权和。在 JPEG 压缩过程中，首先将图像分成 8x8 的小块，然后对每个小块进行 DCT 变换，将其转换到频域。接着，根据人类视觉系统的特性，对变换后的频域系数进行量化处理，通过设置不同的量化步长，对高频系数进行较大程度的量化，从而丢弃部分高频信息。最后，对量化后的系数进行熵编码，进一步减少数据量。

下面通过一个简单的示例来展示频域分析在图像压缩中的应用效果：

import numpy as np
import cv2
import matplotlib.pyplot as plt# 读取图像并转换为YCrCb颜色空间，因为JPEG压缩主要对亮度分量（Y）进行处理
img = cv2.imread('./resource/learn.jpg')
img_ycrcb = cv2.cvtColor(img, cv2.COLOR_BGR2YCrCb)# 分离亮度分量（Y）和色度分量（Cr, Cb）
y, cr, cb = cv2.split(img_ycrcb)# 设置每个块的大小为8x8
block_size = 8
h, w = y.shape# 确保图像的尺寸是8的倍数
h = h // block_size * block_size
w = w // block_size * block_size
y = y[:h, :w]# 量化表 - 调整量化表以增加压缩效果
compression_factor = 30  # 增加压缩因子，使量化更加激进
quantization_table = np.array([[16, 11, 10, 16, 24, 40, 51, 61],[12, 12, 14, 19, 26, 58, 60, 55],[14, 13, 16, 24, 40, 57, 69, 56],[14, 17, 22, 29, 51, 87, 80, 62],[18, 22, 37, 56, 68, 109, 103, 77],[24, 35, 55, 64, 81, 104, 113, 92],[49, 64, 78, 87, 103, 121, 120, 101],[72, 92, 95, 98, 112, 100, 103, 99]
]) * compression_factor  # 使量化更加激进# 对每个8x8块进行DCT变换和量化
quantized_dct_y = np.zeros_like(y, dtype=np.float32)
for i in range(0, h, block_size):for j in range(0, w, block_size):block = y[i:i+block_size, j:j+block_size]dct_block = cv2.dct(np.float32(block))quantized_dct_block = np.round(dct_block / quantization_table)quantized_dct_y[i:i+block_size, j:j+block_size] = quantized_dct_block# 对量化后的系数进行逆量化和逆DCT变换
dequantized_dct_y = np.zeros_like(quantized_dct_y, dtype=np.float32)
idct_y = np.zeros_like(y, dtype=np.float32)for i in range(0, h, block_size):for j in range(0, w, block_size):quantized_block = quantized_dct_y[i:i+block_size, j:j+block_size]dequantized_block = quantized_block * quantization_table  # 逆量化dequantized_dct_y[i:i+block_size, j:j+block_size] = dequantized_blockidct_block = cv2.idct(dequantized_block)  # 逆DCT变换idct_y[i:i+block_size, j:j+block_size] = idct_block# 将处理后的亮度分量与原色度分量合并
idct_y = np.clip(idct_y, 0, 255).astype(np.uint8)
img_ycrcb = cv2.merge((idct_y, cr, cb))# 转换回BGR颜色空间
compressed_img = cv2.cvtColor(img_ycrcb, cv2.COLOR_YCrCb2BGR)# 显示原始图像和压缩后的图像
plt.subplot(121), plt.imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
plt.title('Original Image'), plt.xticks([]), plt.yticks([])plt.subplot(122), plt.imshow(cv2.cvtColor(compressed_img, cv2.COLOR_BGR2RGB))
plt.title(f'Compressed Image (Factor {compression_factor})'), plt.xticks([]), plt.yticks([])plt.show()

在上述代码中，我们首先读取了一张图像，并将其转换为 YCrCb 颜色空间，分离出亮度分量（Y）。然后对亮度分量进行 DCT 变换，将其转换到频域。接着，使用预先定义的量化表对 DCT 系数进行量化，丢弃部分高频信息。之后，对量化后的系数进行逆量化和逆 DCT 变换，将其转换回空间域。最后，将处理后的亮度分量与原色度分量合并，并转换回 BGR 颜色空间，得到压缩后的图像。
在这里插入图片描述
从结果可以看出，压缩后的图像在保持了主要轮廓和结构的同时，数据量得到了显著减少，虽然图像的细节部分有所损失，但在大多数情况下，这种损失对图像的视觉效果影响较小，能够满足实际应用中的存储和传输需求。

六、总结与展望

6.1 技术总结

本文我们学习了 OpenCV 和频域分析在图像处理领域的强大实力。OpenCV 作为图像处理的基石，凭借其丰富的功能和简洁易用的接口，为我们提供了从图像读取、显示、保存，到色彩空间转换、几何变换、滤波、边缘检测等一系列基础而关键的操作。这些功能如同搭建图像处理大厦的基石，是实现各种复杂图像处理任务的基础。通过 OpenCV，我们能够轻松地对图像进行各种常规处理，快速搭建起图像处理的基本框架。

频域分析则为我们打开了图像处理的新视角，让我们能够从频率的维度深入理解图像的本质。傅里叶变换作为频域分析的核心工具，将图像从空间域转换到频率域，揭示了图像中低频和高频成分所代表的不同特征。低频成分承载着图像的大致轮廓和缓慢变化的区域，是图像的基本骨架；高频成分则对应着图像的细节、边缘和纹理，赋予了图像丰富的细节和生动性。

当 OpenCV 与频域分析巧妙融合，为图像处理带来了更强大的能力。在 OpenCV 中，我们可以利用其提供的傅里叶变换相关函数，如 cv2.dft、cv2.idft、cv2.magnitude 和 cv2.phase 等，方便地实现图像的频域转换和分析。通过案例实操，我们看到了如何利用频域分析进行低通滤波和高通滤波，有效地调整图像的高频和低频成分，实现图像的平滑、去噪、边缘增强等效果。这种融合不仅拓宽了图像处理的方法和手段，也为解决各种实际问题提供了更多的思路和途径。

6.2 未来展望

展望未来，图像处理技术在人工智能、物联网等领域展现出了广阔的发展前景和无限的潜力。

在人工智能领域，随着深度学习技术的飞速发展，图像处理与人工智能的融合将更加紧密。深度学习模型，如卷积神经网络（CNN），在图像识别、目标检测、图像生成等任务中取得了巨大的成功。未来，结合 OpenCV 和频域分析的图像处理技术，将为深度学习提供更优质的数据预处理和特征提取方法，进一步提升深度学习模型的性能和准确性。同时，基于深度学习的图像生成技术，如生成对抗网络（GAN），也将与传统图像处理技术相互借鉴，创造出更加逼真、多样化的图像内容。

在物联网领域，图像处理技术将发挥越来越重要的作用。随着物联网设备的广泛普及，如智能摄像头、传感器等，大量的图像数据被实时采集和传输。如何高效地处理这些图像数据，从中提取有价值的信息，成为了物联网发展的关键问题之一。OpenCV 和频域分析技术可以在物联网设备端或边缘端实现实时的图像处理和分析，为智能家居、智能安防、智能交通等应用提供强大的支持。例如，在智能家居中，通过图像处理技术可以实现智能门锁的人脸识别、智能摄像头的行为分析等功能；在智能安防中，利用图像识别和目标检测技术可以实现实时的监控和预警；在智能交通中，图像处理技术可以用于自动驾驶汽车的环境感知、交通流量监测等。

延伸阅读

机器学习核心算法系列文章

解锁机器学习核心算法｜神经网络：AI 领域的 “超级引擎”
解锁机器学习核心算法｜主成分分析（PCA）：降维的魔法棒
解锁机器学习核心算法｜朴素贝叶斯：分类的智慧法则
解锁机器学习核心算法 | 支持向量机算法：机器学习中的分类利刃
解锁机器学习核心算法 | 随机森林算法：机器学习的超强武器
解锁机器学习核心算法 | K -近邻算法：机器学习的神奇钥匙
解锁机器学习核心算法 | K-平均：揭开K-平均算法的神秘面纱
解锁机器学习核心算法 | 决策树：机器学习中高效分类的利器
解锁机器学习核心算法 | 逻辑回归：不是回归的“回归”
解锁机器学习核心算法 | 线性回归：机器学习的基石
深度学习框架探系列文章

深度学习框架探秘｜TensorFlow：AI 世界的万能钥匙
深度学习框架探秘｜PyTorch：AI 开发的灵动画笔
深度学习框架探秘｜TensorFlow vs PyTorch：AI 框架的巅峰对决
深度学习框架探秘｜Keras：深度学习的魔法钥匙