上一篇说的是汉字的分割。今天该实际填字图片的解析了。实际图片如下:
这是一个10*10的方格,所以我们应该先提取100个小方格,然后在提取其中的汉字。
用到的函数主要是python的opencv函数库里的findContours函数,用于找出图片中所有的轮廓层级。
## 轮廓提取
image, contours, hierarchy = cv2.findContours(dilated,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
- 提取100个方格的代码;
for i in range(len(hierarchy[0])):
if hierarchy[0][i][3] == 0:
boxes.append(hierarchy[0][i])
indexs.append(i)
- 提取方格中的数字,还有将白色空白方格填'1',黄色方格填“0”,主要是为了形成初始填字矩阵,便于后续的解密算法的进行。代码:
#提取方格中的汉字
for j in range(len(boxes)):
if boxes[j][2] == -1: #方格中空白
x,y,w,h = cv2.boundingRect(contours[indexs[j]])
number_boxes.append([x,y,w,h])
#cv2.rectangle(img,(x-1,y-1),(x+w-10,y+h-10),(0,0,255),1)
centerColor = img[round((2*y+h)/2),round((2*x+w)/2)]
#print(centerColor)
if(centerColor[0] > 200): #区分出黄色格与白色格,黄色(0,255,255)白色(255,255,255)
#print(y/box_h,round(y/box_h),x/box_w,round(x/box_w))
miyu[round(y/box_h)][round(x/box_w)] = "1" #白色空格填‘1’
elif boxes[j][2] != -1: #方格中有字
x,y,w,h = cv2.boundingRect(contours[boxes[j][2]])
#print(x,y,w,h)
number_boxes.append([x,y,w,h])
#cv2.rectangle(img,(x-1,y-1),(x+w+1,y+h+1),(0,255,0),1)
#img = cv2.drawContours(img, contours, boxes[j][2], (0,255,0), 1)
## 对提取的数字进行处理
number_roi = gray[y:y+h, x:x+w]
## 统一大小
resized_roi=cv2.resize(number_roi,(30,30))
thresh1 = cv2.adaptiveThreshold(resized_roi,255,1,1,11,2)
## 归一化像素值
normalized_roi = thresh1/255.
'''
cv2.imshow("thresh1", thresh1)
cv2.waitKey(0)
cv2.destroyAllWindows()
'''
## 展开成一行让knn识别
sample1 = normalized_roi.reshape((1,len(normalized_roi)*len(normalized_roi[0])))
sample1 = np.array(sample1,np.float32)
## knn识别
retval, results, neigh_resp, dists = model.findNearest(sample1, 1)
number = int(results.ravel()[0])
#print(number)
#numbers.append(number)
# 第一个参数为打印的坐标,第二个为打印的文本,第三个为字体颜色,第四个为字体
draw.text((x+(w/2)+10,y-10), str(hanzis[number-1]), (0, 0, 255), font=font)
## 求在矩阵中的位置
miyu[round(y/box_h)][round(x/box_w)] = str(hanzis[number-1])
- 图片中汉字的识别,使用的是knn算法,代码:
#创建knn对象并训练样本
model = cv2.ml.KNearest_create()
model.train(samples,cv2.ml.ROW_SAMPLE,labels)
- 识别函数代码:
## knn识别
retval, results, neigh_resp, dists = model.findNearest(sample1, 1) #预测测试样本
number = int(results.ravel()[0]) #得出预测样本的样本标记
knn主要是监督学习算法,先对已有数据样本训练,然后根据已有样本预测测试样本,准确度依赖于原始样本的准确度,并且不能保证100%的准确率。
-
识别结果:
- 此准确度是在多次调试之后才完全正确的,包括对测试图片本身大小像素调整,还有训练样本图片的调整,期间试了很多次,一直识别不对,所以识别准确度只针对本项目中的图片和样本。