tesseract-ocr安装和使用
下载tesseract-ocr并安装。node下使用node-tesseract模块。
示例代码:
const tesseract = require('node-tesseract');
tesseract.process('./img/1.jpg', {
l: 'x', // 语言
psm: 1 // 识别程度
}, (err, text)=>{
if(err){
console.error(err);
}else{
console.log(text);
}
});
tesseract-ocr语言库的训练
1.准备好验证码图片c.x.y,图片格式为tif或tiff,合并验证码图片。
2.生成box文件
tesseract c.x.y.tif c.x.y -l eng -psm 7 batch.nochop makebox
3.修改box文件(使用jTessBoxEditor工具,使用java虚拟机运行)
4.生成font_propertiesecho
echo fontyp 0 0 0 0 0 >font_properties
5.生成训练文件
tesseract c.x.y.tif c.x.y -l eng -psm 7 nobatch box.train
6.生成字符集文件
unicharset_extractor c.x.y.box
7.生成shape文件
shapeclustering -F font_properties -U unicharset -O c.unicharset c.x.y.tr
8.生成聚集字符特征文件
mftraining -F font_properties -U unicharset -O c.unicharset c.x.y.tr
9.生成字符正常化特征文件
cntraining c.x.y.tr
10.更名(normproto、inttemp、pffmtable、unicharset、shapetable改名为x.扩展名)
11.合并训练文件,生成fontyp.traineddata
combine_tessdata y.
Tesseract-OCR3.0语言库训练步骤
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练