图像的二值化,就是讲图像变成黑或者白两种颜色。在很多场合,对图像进行二值化,可以忽略图像的颜色信息,背景信息,保留更加重要的形态信息。并且图像二值化处理之后,图像的信息量大为减少,处理起来也更加方便。
最简单的图像二值化的方法。就是先将图像转化为灰度图,然后再设置一个阈值。小于这个阈值的像素点调整成0,而大于这个阈值的像素点调整成255。
在Python3下,用PIL做图像处理,代码如下:
from PIL import Image
def binarizing(image, threshold=200):
pixdata = image.load()
w, h = image.size
for y in range(h):
for x in range(w):
if pixdata[x, y] < threshold:
pixdata[x, y] = 0
else:
pixdata[x, y] = 255
return image
当然,使用的时候,图像首先要转成灰度图
im = Image.open('1.png').convert('L')
这里的默认阈值是200。这样对处理已经基本是黑白的情况(例如黑白的电子书)效果比较好。但是如果要处理自带底色的(例如火车票)等,直接使用默认阈值就可能使得整张图几乎变成黑色或者白色。例如下图,图一的阈值取在160左右效果比较好,而如果取200,则图像会变成纯黑色。如果我们要处理更多种类的情况,默认阈值法根本不适用。
我们看到,文字图片和背景通常会出现两个驼峰。因此,我们需要有一个算法找到这两个驼峰中间的最佳的阈值。otsu法(最大类间方差法,有时也称之为大津算法)就是目前比较好的确定阈值的算法。
otsu算法的原理非常简单。首先,我们把图像分成大于阈值和小于阈值的两个部分,也就是前景与背景两个部分。我们可以计算这两个部分的类间方差。类间方差越大,就说明两个部分直接的灰度差距越大。将0~255这256个阈值都试用一遍,找到类间方差最大的值,通常就是我们要找的最佳阈值了。
代码如下:
import numpy as np
def otsu_threshold(im):
width, height = im.size
pixel_counts = np.zeros(256)
for x in range(width):
for y in range(height):
pixel = im.getpixel((x, y))
pixel_counts[pixel] = pixel_counts[pixel] + 1
# 得到图片的以0-255索引的像素值个数列表
s_max = (0, -10)
for threshold in range(256):
# 遍历所有阈值,根据公式挑选出最好的
# 更新
w_0 = sum(pixel_counts[:threshold]) # 得到阈值以下像素个数
w_1 = sum(pixel_counts[threshold:]) # 得到阈值以上像素个数
# 得到阈值下所有像素的平均灰度
u_0 = sum([i * pixel_counts[i] for i in range(0, threshold)]) / w_0 if w_0 > 0 else 0
# 得到阈值上所有像素的平均灰度
u_1 = sum([i * pixel_counts[i] for i in range(threshold, 256)]) / w_1 if w_1 > 0 else 0
# 总平均灰度
u = w_0 * u_0 + w_1 * u_1
# 类间方差
g = w_0 * (u_0 - u) * (u_0 - u) + w_1 * (u_1 - u) * (u_1 - u)
# 类间方差等价公式
# g = w_0 * w_1 * (u_0 * u_1) * (u_0 * u_1)
# 取最大的
if g > s_max[1]:
s_max = (threshold, g)
return s_max[0]
效果还是不错的。(把个人信息删去了)