1 ddddocr简介:
ddddocr是一个开源图片识别库,Github地址:
https://github.com/sml2h3/ddddocr
经测试发现,ddddocr在识别验证码类型的图片时,准确率还是很高的。
2 ddddocr的安装:
pip3 install ddddocr
或 pip install ddddocr -i 镜像,例如:
pip3 install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple
常用国内镜像源:
清华: https://pypi.tuna.tsinghua.edu.cn/simple
阿里云: http://mirrors.aliyun.com/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
华为云: https://mirrors.huaweicloud.com/python/
豆瓣: https://pypi.douban.com/simple/
3 ddddocr的使用:
图片识别举例:
# -*- coding: utf-8 -*-
import os, ddddocr
# 图片识别函数
def img2text(img_file):
ocr = ddddocr.DdddOcr() #法1
# ocr = ddddocr.DdddOcr(det=True) #法2
cPath = os.getcwd()
print(cPath)
with open(img_file, 'rb') as f:
print("file",f)
img_bytes = f.read()
#获取文字
res = ocr.classification(img_bytes)
print('res:',res)
print("func end.")
# main function
if __name__ == '__main__':
jpg_ch_file="img1_ch.jpg";
jpg_file="img02.jpeg";
png_file="img03.png";
bmp_file = "img04.bmp"
img2text(jpg_ch_file);
print("main end")
运行:
1) bmp文件:
img04.bmp:
% python3 ddd_img2text2.py
欢迎使用ddddocr,本项目专注带动行业内卷,个人博客:wenanzhe.com
训练数据支持来源于:http://146.56.204.113:19199/preview
爬虫框架feapder可快速一键接入,快速开启爬虫之旅:https://github.com/Boris-code/feapder
file <_io.BufferedReader name='img04.bmp'>
res: AFtf
func end.
main end
2)png图片:
img03.png:
% python3 ddd_img2text2.py
file <_io.BufferedReader name='img03.jpeg'>
res: 2bghz
3)jpeg图片:
img2.jpg:
% python3 ddd_img2text2.py
file <_io.BufferedReader name='img02.jpeg'>
res: 2acd
4) 汉字的识别:
img1_ch.jpg:
% python3 ddd_img2text2.py
file <_io.BufferedReader name='img1_ch.jpg'>
res: 中进优搜蔡系和度优先搜索是两种最常见的优先搜索方法它们破泛地运用在图对等
可以看出,对于验证码类型的图片识别,准确率比较高;
而对于汉字的识别,准确率不高。