标签 OpenCV 下的文章

硬核观察 #1175 最重要的计算机视觉库 OpenCV 众筹新版本，应者寥寥

硬核老王发布于 2023-11-04
另请参阅: 硬核观察,闰秒, OpenCV, AI
4 条评论

最重要的计算机视觉库 OpenCV 众筹新版本，应者寥寥

OpenCV 是一个开源的计算机视觉和机器学习软件库。据报告，89% 的嵌入式视觉工程师使用 OpenCV 作为主要的计算机视觉库。为了筹集完成和发布其重要 5.0 版本所需的资金，OpenCV 团队宣布发起一项众筹活动。OpenCV 5.0 原本是 20 周年纪念版本，最初计划于 2020 年发布，但要完成这个版本，需要很多资金。他们设立了 50 万美元的众筹目标，他们也希望“向其他陷入困境的开源项目证明众筹是一个可行的选择，而不仅仅依赖企业捐赠”。不过，这次的众筹于 10 月 24 日开始，十天过去了，才仅仅完成 5% 的目标。

消息来源：i-Programmer

老王点评：依靠 OpenCV 吃饭的人不少，但是都不愿意帮助它活下去。

科学家建议将闰秒变成几十年才需要调整一次的闰分

由于以地球自转为基础的天文钟和铯原子钟之间存在偏差，自 1972 年以来，每隔几年就通过插入闰秒来同步这两个时间 —— 让原子钟短暂停顿一下，让天文钟赶上。这就产生了 UTC，即世界协调时。但很难准确预测何时需要闰秒，这让科技公司、国家和世界计时员越来越头疼。美国国家标准与技术研究院负责网络时间同步的朱达·莱文 Judah Levine 提出了一个新的解决方案：闰一分钟。这样可以减少时钟同步的频率，也许每半个世纪才需要同步一次，而在此期间基本上忘掉它。

消息来源：《纽约时报》

老王点评：最初的闰秒设计是一个直觉方案，现在看起来没有考虑到科技发展这么快，以至于大量的科技设施需要依赖精确而一致的时间。

企业称 Meta 的免费人工智能并不便宜

一些为 OpenAI 人工智能付费的公司一直在寻求使用免费的开源替代品来降低成本。在 Meta 公司发布了开源的大型语言模型 Llama 2 之后，业界对此感到非常兴奋。但企业发现，他们为此向谷歌云一个月支付了 1200 美元，而使用 GPT-3.5 Turbo 处理相同的工作量每月才需要花费约 5 美元。企业发现，使用开箱即用的 Llama 2 的成本比 OpenAI 的 GPT-3.5 Turbo 高 50% 到 100%；而只有那些希望通过对数据进行训练来定制 LLM 的公司，才会选择开源方案 —— 在这种情况下，定制 Llama 2 模型的成本约为定制 GPT-3.5 Turbo 模型的四分之一。

消息来源：The Information

老王点评：一方面我相信 OpenAI 和 Azure 都为 AI 客户提供了大量的补贴，所以使用 GPT 会比 Llama 2 更便宜。另外一方面，当你需要定制，并且有定制的能力时，开源的 Llama 2 可能更适合你。

在 Fedora Linux 上使用 OpenCV（一）

Onuralp Sezer 发布于 2021-08-19
另请参阅: 软件开发,OpenCV
1 条评论

封面图片选自文森特·梵高的《星空》，公共领域，通过维基共享资源发布

技术世界每天都在变化，对计算机视觉、人工智能和机器学习的需求也在增加。让计算机和手机能够看到周围环境的技术被称为计算机视觉。这个重新创造人眼的工作始于 50 年代。从那时起，计算机视觉技术有了长足的发展。计算机视觉已经通过不同的应用进入了我们的手机。这篇文章将介绍 Fedora Linux 上的 OpenCV。

什么是 OpenCV？

OpenCV（开源计算机视觉库 Open Source Computer Vision Library ）是一个开源的计算机视觉和机器学习软件库。OpenCV 的建立是为了给计算机视觉应用提供一个通用的基础设施，并加速机器感知在商业产品中的应用。它有超过 2500 种优化后的算法，其中包括一套全面的经典和最先进的计算机视觉和机器学习算法。这些算法可用于检测和识别人脸、识别物体、对视频中的人类行为进行分类，并建立标记，将其与增强现实叠加等等。
opencv.org – about

在 Fedora Linux 上安装 OpenCV

要开始使用 OpenCV，请从 Fedora Linux 仓库中安装它：

$ sudo dnf install opencv opencv-contrib opencv-doc python3-opencv python3-matplotlib python3-numpy

注意： 在 Fedora Silverblue 或 CoreOS 上，Python 3.9 是核心提交的一部分。用以下方法安装 OpenCV 和所需工具：

rpm-ostree install opencv opencv-doc python3-opencv python3-matplotlib python3-numpy

接下来，在终端输入以下命令，以验证 OpenCV 是否已经安装：

$ python
Python 3.9.6 (default, Jul 16 2021, 00:00:00)
[GCC 11.1.1 20210531 (Red Hat 11.1.1-3)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import cv2 as cv
>>> print( cv.__version__ )
4.5.2
>>> exit()

当你输入 print 命令时，应该显示当前的 OpenCV 版本，如上图所示。这表明 OpenCV 和 Python-OpenCV 库已经成功安装。

此外，如果你想用 Jupyter Notebook 做笔记和写代码，并了解更多关于数据科学工具的信息，请查看早期的 Fedora Magazine 文章：Fedora 中的 Jupyter 和数据科学。

开始使用 OpenCV

安装完成后，使用 Python 和 OpenCV 库加载一个样本图像（按 S 键以 png 格式保存图像的副本并完成程序）：

$ cp /usr/share/opencv4/samples/data/starry_night.jpg .
$ python starry_night.py

starry_night.py 的内容：

import cv2 as cv
import sys
img = cv.imread(cv.samples.findFile("starry_night.jpg"))
if img is None:
    sys.exit("Could not read the image.")
cv.imshow("Display window", img)
k = cv.waitKey(0)
if k == ord("s"):
    cv.imwrite("starry_night.png", img)

通过在 cv.imread 函数中添加参数 0，对图像进行灰度处理，如下所示。

img = cv.imread(cv.samples.findFile("starry_night.jpg"),0)

这些是一些可以用于 cv.imread 函数的第二个参数的替代值：

cv2.IMREAD_GRAYSCALE 或 0：以灰度模式加载图像。
cv2.IMREAD_COLOR** 或1`：以彩色模式载入图像。图像中的任何透明度将被移除。这是默认的。
cv2.IMREAD_UNCHANGED** 或-1`：载入未经修改的图像。包括 alpha 通道。

使用 OpenCV 显示图像属性

图像属性包括行、列和通道的数量、图像数据的类型、像素的数量等等。假设你想访问图像的形状和它的数据类型。你可以这样做：

import cv2 as cv

img = cv.imread(cv.samples.findFile("starry_night.jpg"))
print("Image size is", img.shape)
print("Data type of image is", img.dtype)

Image size is (600, 752, 3)
Data type of image is uint8

print(f"Image 2D numpy array \n {img}")

Image 2D numpy array
 [[[0 0 0]
  [0 0 0]
  [0 0 0]
  ...
  [0 0 0]
  [0 0 0]
  [0 0 0]]

 [[0 0 0]
  [0 0 0]
  [0 0 0]
  ...

img.shape：返回一个行数、列数和通道数的元组（如果是彩色图像）。
img.dtype：返回图像的数据类型。

接下来用 Matplotlib 显示图像：

import cv2 as cv
import matplotlib.pyplot as plt
img = cv.imread(cv.samples.findFile("starry_night.jpg"),0)
plt.imshow(img)
plt.show()

发生了什么？

该图像是作为灰度图像读入的，但是当使用 Matplotlib 的 imshow 函数时，它不一定会以灰度显示。这是因为 imshow 函数默认使用不同的颜色映射。要指定使用灰度颜色映射，请将 imshow 函数的第二个参数设置为 cmap='gray'，如下所示：

plt.imshow(img,cmap='gray')

这个问题在以彩色模式打开图片时也会发生，因为 Matplotlib 期望图片为 RGB（红、绿、蓝）格式，而 OpenCV 则以 BGR（蓝、绿、红）格式存储图片。为了正确显示，你需要将 BGR 图像的通道反转。

import cv2 as cv
import matplotlib.pyplot as plt
img = cv.imread(cv.samples.findFile("starry_night.jpg"),cv.IMREAD_COLOR)
fig, (ax1, ax2) = plt.subplots(1,2)
ax1.imshow(img)
ax1.set_title('BGR Colormap')
ax2.imshow(img[:,:,::-1])
ax2.set_title('Reversed BGR Colormap(RGB)')
plt.show()

分割和合并颜色通道

import cv2 as cv
import matplotlib.pyplot as plt

img = cv.imread(cv.samples.findFile("starry_night.jpg"),cv.IMREAD_COLOR)
b,g,r = cv.split(img)

fig,ax = plt.subplots(2,2)

ax[0,0].imshow(r,cmap='gray')
ax[0,0].set_title("Red Channel");
ax[0,1].imshow(g,cmap='gray')
ax[0,1].set_title("Green Channel");
ax[1,0].imshow(b,cmap='gray')
ax[1,0].set_title("Blue Channel");

# Merge the individual channels into a BGR image
imgMerged = cv.merge((b,g,r))
# Show the merged output
ax[1,1].imshow(imgMerged[:,:,::-1])
ax[1,1].set_title("Merged Output");
plt.show()

cv2.split：将一个多通道数组分割成几个单通道数组。
cv2.merge：将几个数组合并成一个多通道数组。所有的输入矩阵必须具有相同的大小。

注意： 白色较多的图像具有较高的颜色密度。相反，黑色较多的图像，其颜色密度较低。在上面的例子中，红色的密度是最低的。

转换到不同的色彩空间

cv2.cvtColor 函数将一个输入图像从一个颜色空间转换到另一个颜色空间。在 RGB 和 BGR 色彩空间之间转换时，应明确指定通道的顺序（RGB2BGR 或 BGR2RGB）。注意，OpenCV 中的默认颜色格式通常被称为 RGB，但它实际上是 BGR（字节是相反的）。 因此，标准（24 位）彩色图像的第一个字节将是一个 8 位蓝色分量，第二个字节是绿色，第三个字节是红色。然后第四、第五和第六个字节将是第二个像素（蓝色、然后是绿色，然后是红色），以此类推。

import cv2 as cv
import matplotlib.pyplot as plt
img = cv.imread(cv.samples.findFile("starry_night.jpg"),cv.IMREAD_COLOR)
img_rgb = cv.cvtColor(img, cv.COLOR_BGR2RGB)
plt.imshow(img_rgb)
plt.show()

使用 OpenCV 进行高动态范围（HDR）成像

Satya Mallick 发布于 2018-06-17
另请参阅: 软件开发,图像, OpenCV, HDR
评论

在本教程中，我们将学习如何使用由不同曝光设置拍摄的多张图像创建高动态范围 High Dynamic Range （HDR）图像。我们将以 C++ 和 Python 两种形式分享代码。

什么是高动态范围成像？

大多数数码相机和显示器都是按照 24 位矩阵捕获或者显示彩色图像。每个颜色通道有 8 位，因此每个通道的像素值在 0-255 范围内。换句话说，普通的相机或者显示器的动态范围是有限的。

但是，我们周围世界动态范围极大。在车库内关灯就会变黑，直接看着太阳就会变得非常亮。即使不考虑这些极端，在日常情况下，8 位的通道勉强可以捕捉到现场场景。因此，相机会尝试去评估光照并且自动设置曝光，这样图像的最关注区域就会有良好的动态范围，并且太暗和太亮的部分会被相应截取为 0 和 255。

在下图中，左侧的图像是正常曝光的图像。请注意，由于相机决定使用拍摄主体（我的儿子）的设置，所以背景中的天空已经完全流失了，但是明亮的天空也因此被刷掉了。右侧的图像是由 iPhone 生成的HDR图像。

iPhone 是如何拍摄 HDR 图像的呢？它实际上采用三种不同的曝光度拍摄了 3 张图像，3 张图像拍摄非常迅速，在 3 张图像之间几乎没有产生位移。然后组合三幅图像来产生 HDR 图像。我们将在下一节看到一些细节。

将在不同曝光设置下获取的相同场景的不同图像组合的过程称为高动态范围（HDR）成像。

高动态范围（HDR）成像是如何工作的？

在本节中，我们来看下使用 OpenCV 创建 HDR 图像的步骤。

要想轻松学习本教程，请点击此处下载 C++ 和 Python 代码还有图像。如果您有兴趣了解更多关于人工智能，计算机视觉和机器学习的信息，请订阅我们的电子杂志。

第 1 步：捕获不同曝光度的多张图像

当我们使用相机拍照时，每个通道只有 8 位来表示场景的动态范围（亮度范围）。但是，通过改变快门速度，我们可以在不同的曝光条件下拍摄多个场景图像。大多数单反相机（SLR）有一个功能称为自动包围式曝光 Auto Exposure Bracketing （AEB），只需按一下按钮，我们就可以在不同的曝光下拍摄多张照片。如果你正在使用 iPhone，你可以使用这个自动包围式 HDR 应用程序，如果你是一个 Android 用户，你可以尝试一个更好的相机应用程序。

场景没有变化时，在相机上使用自动包围式曝光或在手机上使用自动包围式应用程序，我们可以一张接一张地快速拍摄多张照片。当我们在 iPhone 中使用 HDR 模式时，会拍摄三张照片。

曝光不足的图像：该图像比正确曝光的图像更暗。目标是捕捉非常明亮的图像部分。
正确曝光的图像：这是相机将根据其估计的照明拍摄的常规图像。
曝光过度的图像：该图像比正确曝光的图像更亮。目标是拍摄非常黑暗的图像部分。

但是，如果场景的动态范围很大，我们可以拍摄三张以上的图片来合成 HDR 图像。在本教程中，我们将使用曝光时间为1/30 秒，0.25 秒，2.5 秒和 15 秒的 4 张图像。缩略图如下所示。

单反相机或手机的曝光时间和其他设置的信息通常存储在 JPEG 文件的 EXIF 元数据中。查看此链接可在 Windows 和 Mac 中查看存储在 JPEG 文件中的 EXIF 元数据。或者，您可以使用我最喜欢的名为 EXIFTOOL 的查看 EXIF 的命令行工具。

我们先从读取分配到不同曝光时间的图像开始。

C++

void readImagesAndTimes(vector<Mat> &images, vector<float> &times)
{

  int numImages = 4;

  // 曝光时间列表
  static const float timesArray[] = {1/30.0f,0.25,2.5,15.0};
  times.assign(timesArray, timesArray + numImages);

  // 图像文件名称列表
  static const char* filenames[] = {"img_0.033.jpg", "img_0.25.jpg", "img_2.5.jpg", "img_15.jpg"};
  for(int i=0; i < numImages; i++)
  {
    Mat im = imread(filenames[i]);
    images.push_back(im);
  }

}

Python

def readImagesAndTimes():
  # 曝光时间列表
  times = np.array([ 1/30.0, 0.25, 2.5, 15.0 ], dtype=np.float32)

  # 图像文件名称列表
  filenames = ["img_0.033.jpg", "img_0.25.jpg", "img_2.5.jpg", "img_15.jpg"]
  images = []
  for filename in filenames:
    im = cv2.imread(filename)
    images.append(im)

  return images, times

第 2 步：对齐图像

合成 HDR 图像时使用的图像如果未对齐可能会导致严重的伪影。在下图中，左侧的图像是使用未对齐的图像组成的 HDR 图像，右侧的图像是使用对齐的图像的图像。通过放大图像的一部分（使用红色圆圈显示的）我们会在左侧图像中看到严重的鬼影。

在拍摄照片制作 HDR 图像时，专业摄影师自然是将相机安装在三脚架上。他们还使用称为镜像锁定功能来减少额外的振动。即使如此，图像可能仍然没有完美对齐，因为没有办法保证无振动的环境。使用手持相机或手机拍摄图像时，对齐问题会变得更糟。

幸运的是，OpenCV 提供了一种简单的方法，使用 AlignMTB 对齐这些图像。该算法将所有图像转换为中值阈值位图 median threshold bitmaps （MTB）。图像的 MTB 生成方式为将比中值亮度的更亮的分配为 1，其余为 0。 MTB 不随曝光时间的改变而改变。因此不需要我们指定曝光时间就可以对齐 MTB。

基于 MTB 的对齐方式的代码如下。

C++

// 对齐输入图像
Ptr<AlignMTB> alignMTB = createAlignMTB();
alignMTB->process(images, images);

Python

# 对齐输入图像
alignMTB = cv2.createAlignMTB()
alignMTB.process(images, images)

第 3 步：提取相机响应函数

典型相机的响应与场景亮度不成线性关系。那是什么意思呢？假设有两个物体由同一个相机拍摄，在现实世界中其中一个物体是另一个物体亮度的两倍。当您测量照片中两个物体的像素亮度时，较亮物体的像素值将不会是较暗物体的两倍。在不估计相机响应函数 Camera Response Function （CRF）的情况下，我们将无法将图像合并到一个HDR图像中。

将多个曝光图像合并为 HDR 图像意味着什么？

只考虑图像的某个位置 (x,y) 一个像素。如果 CRF 是线性的，则像素值将直接与曝光时间成比例，除非像素在特定图像中太暗（即接近 0）或太亮（即接近 255）。我们可以过滤出这些不好的像素（太暗或太亮），并且将像素值除以曝光时间来估计像素的亮度，然后在像素不差的（太暗或太亮）所有图像上对亮度值取平均。我们可以对所有像素进行这样的处理，并通过对“好”像素进行平均来获得所有像素的单张图像。

但是 CRF 不是线性的，我们需要评估 CRF 把图像强度变成线性，然后才能合并或者平均它们。

好消息是，如果我们知道每个图像的曝光时间，则可以从图像估计 CRF。与计算机视觉中的许多问题一样，找到 CRF 的问题本质是一个最优解问题，其目标是使由数据项和平滑项组成的目标函数最小化。这些问题通常会降维到线性最小二乘问题，这些问题可以使用奇异值分解 Singular Value Decomposition （SVD）来解决，奇异值分解是所有线性代数包的一部分。 CRF 提取算法的细节在从照片提取高动态范围辐射图这篇论文中可以找到。

使用 OpenCV 的 CalibrateDebevec 或者 CalibrateRobertson 就可以用 2 行代码找到 CRF。本篇教程中我们使用 CalibrateDebevec

C++

// 获取图像响应函数 (CRF)
Mat responseDebevec;
Ptr<CalibrateDebevec> calibrateDebevec = createCalibrateDebevec();
calibrateDebevec->process(images, responseDebevec, times);

Python

# 获取图像响应函数 (CRF)
calibrateDebevec = cv2.createCalibrateDebevec()
responseDebevec = calibrateDebevec.process(images, times)

下图显示了使用红绿蓝通道的图像提取的 CRF。

第 4 步：合并图像

一旦 CRF 评估结束，我们可以使用 MergeDebevec 将曝光图像合并成一个HDR图像。 C++ 和 Python 代码如下所示。

C++

// 将图像合并为HDR线性图像
Mat hdrDebevec;
Ptr<MergeDebevec> mergeDebevec = createMergeDebevec();
mergeDebevec->process(images, hdrDebevec, times, responseDebevec);
// 保存图像
imwrite("hdrDebevec.hdr", hdrDebevec);

Python

# 将图像合并为HDR线性图像
mergeDebevec = cv2.createMergeDebevec()
hdrDebevec = mergeDebevec.process(images, times, responseDebevec)
# 保存图像
cv2.imwrite("hdrDebevec.hdr", hdrDebevec)

上面保存的 HDR 图像可以在 Photoshop 中加载并进行色调映射。示例图像如下所示。

HDR Photoshop 色调映射

第 5 步：色调映射

现在我们已经将我们的曝光图像合并到一个 HDR 图像中。你能猜出这个图像的最小和最大像素值吗？对于黑色条件，最小值显然为 0。理论最大值是什么？无限大！在实践中，不同情况下的最大值是不同的。如果场景包含非常明亮的光源，那么最大值就会非常大。

尽管我们已经使用多个图像恢复了相对亮度信息，但是我们现在又面临了新的挑战：将这些信息保存为 24 位图像用于显示。

将高动态范围（HDR）图像转换为 8 位单通道图像的过程称为色调映射。这个过程的同时还需要保留尽可能多的细节。

有几种色调映射算法。 OpenCV 实现了其中的四个。要记住的是没有一个绝对正确的方法来做色调映射。通常，我们希望在色调映射图像中看到比任何一个曝光图像更多的细节。有时色调映射的目标是产生逼真的图像，而且往往是产生超现实图像的目标。在 OpenCV 中实现的算法倾向于产生现实的并不那么生动的结果。

我们来看看各种选项。以下列出了不同色调映射算法的一些常见参数。

伽马 gamma ：该参数通过应用伽马校正来压缩动态范围。当伽马等于 1 时，不应用修正。小于 1 的伽玛会使图像变暗，而大于 1 的伽马会使图像变亮。
饱和度 saturation ：该参数用于增加或减少饱和度。饱和度高时，色彩更丰富，更浓。饱和度值接近零，使颜色逐渐消失为灰度。
对比度 contrast ：控制输出图像的对比度（即 log(maxPixelValue/minPixelValue)）。

让我们来探索 OpenCV 中可用的四种色调映射算法。

Drago 色调映射

Drago 色调映射的参数如下所示：

createTonemapDrago
(
float   gamma = 1.0f,
float   saturation = 1.0f,
float   bias = 0.85f 
)

这里，bias 是 [0, 1] 范围内偏差函数的值。从 0.7 到 0.9 的值通常效果较好。默认值是 0.85。有关更多技术细节，请参阅这篇论文。

C++ 和 Python 代码如下所示。参数是通过反复试验获得的。最后的结果乘以 3 只是因为它给出了最令人满意的结果。

C++

// 使用Drago色调映射算法获得24位彩色图像
Mat ldrDrago;
Ptr<TonemapDrago> tonemapDrago = createTonemapDrago(1.0, 0.7);
tonemapDrago->process(hdrDebevec, ldrDrago);
ldrDrago = 3 * ldrDrago;
imwrite("ldr-Drago.jpg", ldrDrago * 255);

Python

# 使用Drago色调映射算法获得24位彩色图像
tonemapDrago = cv2.createTonemapDrago(1.0, 0.7)
ldrDrago = tonemapDrago.process(hdrDebevec)
ldrDrago = 3 * ldrDrago
cv2.imwrite("ldr-Drago.jpg", ldrDrago * 255)

结果如下：

使用Drago算法的HDR色调映射

Durand 色调映射

Durand 色调映射的参数如下所示：

createTonemapDurand 
(   
  float     gamma = 1.0f, 
  float     contrast = 4.0f,
  float     saturation = 1.0f,
  float     sigma_space = 2.0f,
  float     sigma_color = 2.0f 
);

该算法基于将图像分解为基础层和细节层。使用称为双边滤波器的边缘保留滤波器来获得基本层。 sigma_space 和sigma_color 是双边滤波器的参数，分别控制空间域和彩色域中的平滑量。

有关更多详细信息，请查看这篇论文。

C++

// 使用Durand色调映射算法获得24位彩色图像
Mat ldrDurand;
Ptr<TonemapDurand> tonemapDurand = createTonemapDurand(1.5,4,1.0,1,1);
tonemapDurand->process(hdrDebevec, ldrDurand);
ldrDurand = 3 * ldrDurand;
imwrite("ldr-Durand.jpg", ldrDurand * 255);

Python

# 使用Durand色调映射算法获得24位彩色图像
 tonemapDurand = cv2.createTonemapDurand(1.5,4,1.0,1,1)
 ldrDurand = tonemapDurand.process(hdrDebevec)
 ldrDurand = 3 * ldrDurand
 cv2.imwrite("ldr-Durand.jpg", ldrDurand * 255)

结果如下：

使用Durand算法的HDR色调映射

Reinhard 色调映射


createTonemapReinhard
(
float   gamma = 1.0f,
float   intensity = 0.0f,
float   light_adapt = 1.0f,
float   color_adapt = 0.0f 
)

intensity 参数应在 [-8, 8] 范围内。更高的亮度值会产生更明亮的结果。 light_adapt 控制灯光，范围为 [0, 1]。值 1 表示仅基于像素值的自适应，而值 0 表示全局自适应。中间值可以用于两者的加权组合。参数 color_adapt 控制色彩，范围为 [0, 1]。如果值被设置为 1，则通道被独立处理，如果该值被设置为 0，则每个通道的适应级别相同。中间值可以用于两者的加权组合。

有关更多详细信息，请查看这篇论文。

C++

// 使用Reinhard色调映射算法获得24位彩色图像
Mat ldrReinhard;
Ptr<TonemapReinhard> tonemapReinhard = createTonemapReinhard(1.5, 0,0,0);
tonemapReinhard->process(hdrDebevec, ldrReinhard);
imwrite("ldr-Reinhard.jpg", ldrReinhard * 255);

Python

# 使用Reinhard色调映射算法获得24位彩色图像
tonemapReinhard = cv2.createTonemapReinhard(1.5, 0,0,0)
ldrReinhard = tonemapReinhard.process(hdrDebevec)
cv2.imwrite("ldr-Reinhard.jpg", ldrReinhard * 255)

结果如下：

使用Reinhard算法的HDR色调映射

Mantiuk 色调映射

createTonemapMantiuk
(   
float   gamma = 1.0f,
float   scale = 0.7f,
float   saturation = 1.0f 
)

参数 scale 是对比度比例因子。从 0.7 到 0.9 的值通常效果较好

有关更多详细信息，请查看这篇论文。

C++

// 使用Mantiuk色调映射算法获得24位彩色图像
Mat ldrMantiuk;
Ptr<TonemapMantiuk> tonemapMantiuk = createTonemapMantiuk(2.2,0.85, 1.2);
tonemapMantiuk->process(hdrDebevec, ldrMantiuk);
ldrMantiuk = 3 * ldrMantiuk;
imwrite("ldr-Mantiuk.jpg", ldrMantiuk * 255);

Python

# 使用Mantiuk色调映射算法获得24位彩色图像
tonemapMantiuk = cv2.createTonemapMantiuk(2.2,0.85, 1.2)
ldrMantiuk = tonemapMantiuk.process(hdrDebevec)
ldrMantiuk = 3 * ldrMantiuk
cv2.imwrite("ldr-Mantiuk.jpg", ldrMantiuk * 255)

结果如下：

使用Mantiuk算法的HDR色调映射

订阅然后下载代码

如果你喜欢这篇文章，并希望下载本文中使用的代码（C++ 和 Python）和示例图片，请订阅我们的电子杂志。您还将获得免费的计算机视觉资源指南。在我们的电子杂志中，我们分享了用 C++ 还有 Python 编写的 OpenCV 教程和例子，以及计算机视觉和机器学习的算法和新闻。

点此订阅

图片致谢

本文中使用的四个曝光图像获得 CC BY-SA 3.0 许可，并从维基百科的 HDR 页面下载。图像由 Kevin McCoy拍摄。

作者简介：

我是一位热爱计算机视觉和机器学习的企业家，拥有十多年的实践经验（还有博士学位）。

2007 年，在完成博士学位之后，我和我的顾问 David Kriegman 博士还有 Kevin Barnes 共同创办了 TAAZ 公司。我们的计算机视觉和机器学习算法的可扩展性和鲁棒性已经经过了试用了我们产品的超过 1 亿的用户的严格测试。

via: http://www.learnopencv.com/high-dynamic-range-hdr-imaging-using-opencv-cpp-python/

作者：SATYA MALLICK 译者：Flowsnow 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

使用 OpenCV 识别图片中的猫咪

Adrian Rosebrock 发布于 2016-07-21
另请参阅: 软件开发,OpenCV, 计算机视觉
3 条评论

你知道 OpenCV 可以识别在图片中小猫的脸吗？而且是拿来就能用，不需要其它的库之类的。

之前我也不知道。

但是在 Kendrick Tan 曝出这个功能后，我需要亲自体验一下……去看看到 OpenCV 是如何在我没有察觉到的情况下，将这一个功能添加进了他的软件库（就像一只悄悄溜进空盒子的猫咪一样，等待别人发觉）。

下面，我将会展示如何使用 OpenCV 的猫咪检测器在图片中识别小猫的脸。同样的，该技术也可以用在视频流中。

使用 OpenCV 在图片中检测猫咪

如果你查找过 OpenCV 的代码仓库，尤其是在 haarcascades 目录里（OpenCV 在这里保存处理它预先训练好的 Haar 分类器，以检测各种物体、身体部位等），你会看到这两个文件:

haarcascade\_frontalcatface.xml
haarcascade\_frontalcatface\_extended.xml

这两个 Haar Cascade 文件都将被用来在图片中检测小猫的脸。实际上，我使用了相同的 cascades 分类器来生成这篇博文顶端的图片。

在做了一些调查工作之后，我发现这些 cascades 分类器是由鼎鼎大名的 Joseph Howse 训练和贡献给 OpenCV 仓库的，他写了很多很棒的教程和书籍，在计算机视觉领域有着很高的声望。

下面，我将会展示给你如何使用 Howse 的 Haar cascades 分类器来检测图片中的小猫。

猫咪检测代码

让我们开始使用 OpenCV 来检测图片中的猫咪。新建一个叫 cat\_detector.py 的文件，并且输入如下的代码:

# import the necessary packages
import argparse
import cv2

# construct the argument parse and parse the arguments
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required=True,
    help="path to the input image")
ap.add_argument("-c", "--cascade",
    default="haarcascade_frontalcatface.xml",
    help="path to cat detector haar cascade")
args = vars(ap.parse_args())

第 2 和第 3 行主要是导入了必要的 python 包。6-12 行用于解析我们的命令行参数。我们仅要求一个必需的参数 --image ，它是我们要使用 OpenCV 检测猫咪的图片。

我们也可以（可选的）通过 --cascade 参数指定我们的 Haar cascade 分类器的路径。默认使用 haarcascades_frontalcatface.xml，假定这个文件和你的 cat_detector.py 在同一目录下。

注意：我已经打包了猫咪的检测代码，还有在这个教程里的样本图片。你可以在博文原文的 “下载” 部分下载到。如果你是刚刚接触 Python+OpenCV（或者 Haar cascade），我建议你下载这个 zip 压缩包，这个会方便你跟着教程学习。

接下来，就是检测猫的时刻了：

# load the input image and convert it to grayscale
image = cv2.imread(args["image"])
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# load the cat detector Haar cascade, then detect cat faces
# in the input image
detector = cv2.CascadeClassifier(args["cascade"])
rects = detector.detectMultiScale(gray, scaleFactor=1.3,
    minNeighbors=10, minSize=(75, 75))

在 15、16 行，我们从硬盘上读取了图片，并且进行灰度化（这是一个在将图片传给 Haar cascade 分类器之前的常用的图片预处理步骤，尽管不是必须的）

20 行，从硬盘加载 Haar casacade 分类器，即猫咪检测器，并且实例化 cv2.CascadeClassifier 对象。

在 21、22 行通过调用 detector 的 detectMultiScale 方法使用 OpenCV 完成猫脸检测。我们给 detectMultiScale 方法传递了四个参数。包括：

图片 gray，我们要在该图片中检测猫脸。
检测猫脸时的图片金字塔的检测粒度 scaleFactor 。更大的粒度将会加快检测的速度，但是会对检测准确性（ true-positive ）产生影响。相反的，一个更小的粒度将会影响检测的时间，但是会增加准确性（ true-positive ）。但是，细粒度也会增加误报率（ false-positive ）。你可以看这篇博文的“ Haar cascades 注意事项”部分来获得更多的信息。
minNeighbors 参数控制了检定框的最少数量，即在给定区域内被判断为猫脸的最少数量。这个参数可以很好的排除误报（ false-positive ）结果。
最后，minSize 参数不言自明。这个值描述每个检定框的最小宽高尺寸（单位是像素），这个例子中就是 75*75

detectMultiScale 函数会返回 rects，这是一个 4 元组列表。这些元组包含了每个检测到的猫脸的 (x,y) 坐标值，还有宽度、高度。

最后，让我们在图片上画下这些矩形来标识猫脸：

# loop over the cat faces and draw a rectangle surrounding each
for (i, (x, y, w, h)) in enumerate(rects):
    cv2.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)
    cv2.putText(image, "Cat #{}".format(i + 1), (x, y - 10),
        cv2.FONT_HERSHEY_SIMPLEX, 0.55, (0, 0, 255), 2)

# show the detected cat faces
cv2.imshow("Cat Faces", image)
cv2.waitKey(0)

给我们这些框（比如，rects）的数据，我们在 25 行依次遍历它。

在 26 行，我们在每张猫脸的周围画上一个矩形。27、28 行展示了一个整数，即图片中猫咪的数量。

最后，31，32 行在屏幕上展示了输出的图片。

猫咪检测结果

为了测试我们的 OpenCV 猫咪检测器，可以在原文的最后，下载教程的源码。

然后，在你解压缩之后，你将会得到如下的三个文件/目录:

cat\_detector.py：我们的主程序
haarcascade\_frontalcatface.xml：猫咪检测器 Haar cascade
images：我们将会使用的检测图片目录。

到这一步，执行以下的命令：

$ python cat_detector.py --image images/cat_01.jpg

图 1. 在图片中检测猫脸，甚至是猫咪部分被遮挡了。

注意，我们已经可以检测猫脸了，即使它的其余部分是被遮挡的。

试下另外的一张图片:

python cat_detector.py --image images/cat_02.jpg

图 2. 使用 OpenCV 检测猫脸的第二个例子，这次猫脸稍有不同。

这次的猫脸和第一次的明显不同，因为它正在发出“喵呜”叫声的当中。这种情况下，我们依旧能检测到正确的猫脸。

在下面这张图片的结果也是正确的：

$ python cat_detector.py --image images/cat_03.jpg

图 3. 使用 OpenCV 和 python 检测猫脸

我们最后的一个样例就是在一张图中检测多张猫脸:

$ python cat_detector.py --image images/cat_04.jpg

图 4. 在同一张图片中使用 OpenCV 检测多只猫

注意，Haar cascade 返回的检定框不一定是以你预期的顺序。这种情况下，中间的那只猫会被标记成第三只。你可以通过判断他们的 (x, y) 坐标来自己排序这些检定框。

关于精度的说明

在这个 xml 文件中的注释非常重要，Joseph Hower 提到了这个猫脸检测器有可能会将人脸识别成猫脸。

这种情况下，他推荐使用两种检测器（人脸 & 猫脸），然后将出现在人脸识别结果中的结果剔除掉。

Haar cascades 注意事项

这个方法首先出现在 Paul Viola 和 Michael Jones 2001 年出版的 Rapid Object Detection using a Boosted Cascade of Simple Features 论文中。现在它已经成为了计算机识别领域引用最多的论文之一。

这个算法能够识别图片中的对象，无论它们的位置和比例。而且最令人感兴趣的或许是它能在现有的硬件条件下实现实时检测。

在他们的论文中，Viola 和 Jones 关注在训练人脸检测器；但是，这个框架也能用来检测各类事物，如汽车、香蕉、路标等等。

问题是？

Haar cascades 最大的问题就是如何确定 detectMultiScale 方法的参数正确。特别是 scaleFactor 和 minNeighbors 参数。你很容易陷入一张一张图片调参数的坑，这个就是该对象检测器很难被实用化的原因。

这个 scaleFactor 变量控制了用来检测对象的图片的各种比例的图像金字塔。如果 scaleFactor 参数过大，你就只需要检测图像金字塔中较少的层，这可能会导致你丢失一些在图像金字塔层之间缩放时少了的对象。

换句话说，如果 scaleFactor 参数过低，你会检测过多的金字塔图层。这虽然可以能帮助你检测到更多的对象。但是他会造成计算速度的降低，还会明显提高误报率。Haar cascades 分类器就是这样。

为了避免这个，我们通常使用 Histogram of Oriented Gradients + 线性 SVM 检测替代。

上述的 HOG + 线性 SVM 框架的参数更容易调优。而且更好的误报率也更低，但是唯一不好的地方是无法实时运算。

对对象识别感兴趣？并且希望了解更多？

图 5. 在 PyImageSearch Gurus 课程中学习如何构建自定义的对象识别器。

如果你对学习如何训练自己的自定义对象识别器感兴趣，请务必要去了解下 PyImageSearch Gurus 课程。

在这个课程中，我提供了 15 节课，覆盖了超过 168 页的教程，来教你如何从 0 开始构建自定义的对象识别器。你会掌握如何应用 HOG + 线性 SVM 框架来构建自己的对象识别器来识别路标、面孔、汽车（以及附近的其它东西）。

要学习 PyImageSearch Gurus 课程（有 10 节示例免费课程），点此： https://www.pyimagesearch.com/pyimagesearch-gurus/?src=post-cat-detection

总结

在这篇博文里，我们学习了如何使用 OpenCV 默认就有的 Haar cascades 分类器来识别图片中的猫脸。这些 Haar casacades 是由 Joseph Howse 训练兵贡献给 OpenCV 项目的。我是在 Kendrick Tan 的这篇文章中开始注意到这个。

尽管 Haar cascades 相当有用，但是我们也经常用 HOG + 线性 SVM 替代。因为后者相对而言更容易使用，并且可以有效地降低误报率。

我也会在 PyImageSearch Gurus 课程中详细的讲述如何构建定制的 HOG + 线性 SVM 对象识别器，来识别包括汽车、路标在内的各种事物。

不管怎样，我希望你喜欢这篇博文。

via: http://www.pyimagesearch.com/2016/06/20/detecting-cats-in-images-with-opencv/

作者：Adrian Rosebrock 译者：MikeCoder 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出