TesseractOCR
最近研究并学习了一下 TesseractOCR ,它是一款由HP实验室开发由 Google 维护的开源 OCR(Optical Character Recognition , 光学字符识别)引擎。
iOS 上初步的使用 TesseractOCR 进行图像文字提取。
1、在 github 下载图像识别demo源码:Tesseract OCR ----https://github.com/gali8/Tesseract-OCR-iOS
,默认英文识别。
2、中文识别:增加并替换文字库,字库链接 https://github.com/tesseract-ocr/tessdata
增加:在 tessdata 文件夹中,你会看到只有一个 eng.traineddata 的英文文字库,这个时候你需要去下载中文文字库: chi_sim.traineddata ,并将其拷贝到 tessdata 文件夹中。
替换:修改代码,@"eng" -- @"chi_sim"
// G8RecognitionOperation *operation = [[G8RecognitionOperation alloc] initWithLanguage:@"eng"];
G8RecognitionOperation *operation = [[G8RecognitionOperation alloc] initWithLanguage:@"chi_sim"];
问题来了:这个时候会发生两种问题:
第一: actual_tessdata_num_entries_ <= TESSDATA_NUM_ENTRIES:Error:Assert failed:in file tessdatamanager.cpp, line 53
这是字库版本不对的问题,需要在字库链接中选中分支 (Branch),选择不同的版本 (tag)。本人使用 3.04.00 。这样就不会报错了。
第二:字库正常的情况下,点击识别的时候立刻退出的情况。会出现 allow_blob_division
这个问题。
对于 Windows用户来说,可以参考这篇文章:http://www.cocoachina.com/bbs/read.php?tid-1680510.html
。大概思路是重新联立这个中文字库。
对于 Mac 用户来说,很抱歉,我暂时也没找到解决办法,有一个想法是通过 Windows 的计算机把这个字库文件暂时修改后,转移到 tessdata 文件夹来进行操作。 PS :未经尝试。
优化识别功能。
因为 TessractOCR 进行图片文字提取耗时比较久,于是,结合 OpenCV 框架首先进行图像处理,然后再让 TessractOCR 识别,来达到时间的优化的目的。
例子:身份证识别。
一、第三方框架准备,使用 Cocoapods :
OpenCV 指定版本 3.0.0 不会拉取不成功,其他版本会失败。 TesseractOCRiOS 是一个大神专门为了 iOS 系统对 TessractOCR 的 OC 封装。
platform :ios, ‘8.0’
target '身份证识别' do
pod 'OpenCV', '~> 3.0.0'
pod 'TesseractOCRiOS', '~> 4.0.0'
end
二、图像处理技术:
1、灰度化处理:将指定图片每个像素点的 RGB 三个分量通过算法计算出该像素点的灰度值,将图像的色彩信息进行移除。
cvtColor(resultImage, resultImage, cv::COLOR_BGR2GRAY);
2、二值化:将经过灰度处理的图片转换为只包含黑白二色的图像。图像中只存在 255(白色) 或者 0(黑色)。
二值化参考网址:https://blog.csdn.net/u013270326/article/details/72897507
//www.greatytc.com/p/6efd324e8677
cv::threshold(resultImage, resultImage, 80, 255, CV_THRESH_BINARY);
3、腐蚀:将二值图中的黑色进行放大。将图片中黑色文字或者头像区域连城一体,形成一个黑色区域(文字形成的区域一般是矩形)。
cv::Mat erodeElement = getStructuringElement(cv::MORPH_RECT, cv::Size(26,26));
cv::erode(resultImage, resultImage, erodeElement);
4、轮廓检测:图片经过腐蚀之后形成一个一个的矩形区域,通过轮廓检测,能把一个一个的矩形塞到一个类似于数组这样的集合中。我们就可以通过特征算法获取到身份证的区域。并把这个区域的图片单独提取出来,进行 TesseractOCR 图像信息提取。
// 轮廓检测
std::vector<std::vector<cv::Point>> contours; // 定义一个容器来存储所有检测到的轮廓
cv::findContours(resultImage, contours, CV_RETR_TREE, CV_CHAIN_APPROX_SIMPLE, cvPoint(0, 0));
// 取出身份证号码区域
std::vector<cv::Rect> rects;
cv::Rect numberRect = cv::Rect(0,0,0,0);
std::vector<std::vector<cv::Point>>::const_iterator itContours = contours.begin();
for ( ; itContours != contours.end(); ++itContours) {
cv::Rect rect = cv::boundingRect(*itContours);
rects.push_back(rect);
//算法原理
if (rect.width > numberRect.width && rect.width > rect.height * 5) {
numberRect = rect;
}
}
三、文字识别技术。直接使用封装好的 TessractOCRiOS
方法进行图片识别。
dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
G8Tesseract *tesseract = [[G8Tesseract alloc] initWithLanguage:@"eng"];
tesseract.image = [image g8_blackAndWhite];
tesseract.image = image;
// Start the recognition
[tesseract recognize];
//执行回调
dispatch_async(dispatch_get_main_queue(), ^{
completeBlock(image, tesseract.recognizedText);
});
});
具体代码如下:
一、 viewController 调用代码:
//适用获取所有媒体资源,只需判断资源类型
- (void)imagePickerController:(UIImagePickerController *)picker didFinishPickingMediaWithInfo:(NSDictionary<NSString *,id> *)info{
NSString *mediaType=[info objectForKey:UIImagePickerControllerMediaType];
UIImage *srcImage = nil;
//判断资源类型
if ([mediaType isEqualToString:@"public.image"]){
srcImage = info[UIImagePickerControllerEditedImage];
self.imageView.image = srcImage;
//识别身份证
self.textLabel.text = @"图片插入成功,正在识别中...";
[[RecognizeCardManager shareManager] recognizeCardWithImage:srcImage complete:^(UIImage *cropImage, NSString *text) {
if (text != nil) {
self.textLabel.text = [NSString stringWithFormat:@"识别结果:%@",text];
NSLog(@"%@", self.textLabel.text);
CGFloat width = cropImage.size.width;
CGFloat height = cropImage.size.height;
if (cropImage.size.width > self.view.bounds.size.width) {
width = self.imageView.frame.size.width;
}
if (cropImage.size.height > self.imageView.frame.size.height) {
height = self.imageView.frame.size.height;
}
UIImageView *imageView = [[UIImageView alloc] initWithFrame:CGRectMake(0, CGRectGetMinY(self.imageView.frame), width, cropImage.size.height)];
imageView.contentMode = UIViewContentModeScaleAspectFit;
imageView.image = cropImage;
UIWindow *window = [[UIApplication sharedApplication] keyWindow];
[window addSubview:imageView];
}else {
self.textLabel.text = @"识别失败";
}
}];
}
[self dismissViewControllerAnimated:YES completion:nil];
}
二、 recognizeCardManager 代码:
.h
#import <Foundation/Foundation.h>
@class UIImage;
typedef void (^CompleteBlock) (UIImage *cropImage, NSString *text);
@interface RecognizeCardManager : NSObject
+ (instancetype)shareManager;
- (void)recognizeCardWithImage:(UIImage *)cardImage complete:(CompleteBlock)completeBlock;
- (void)tesseractRecogniceWithImage:(UIImage *)inputImage complete:(CompleteBlock)complete;
@end
.m
#import "RecognizeCardManager.h"
#import <opencv2/opencv.hpp>
#import <opencv2/imgproc/types_c.h>
#import <opencv2/imgcodecs/ios.h>
#import <TesseractOCR/TesseractOCR.h>
@implementation RecognizeCardManager
+ (instancetype)shareManager
{
static RecognizeCardManager *manager = nil;
static dispatch_once_t onceToken;
dispatch_once(&onceToken, ^{
manager = [[RecognizeCardManager alloc] init];
});
return manager;
}
- (void)recognizeCardWithImage:(UIImage *)cardImage complete:(CompleteBlock)completeBlock
{
// 扫描身份证图片,并进行预处理,定位号码区域图片并返回
UIImage *numberImage = [self opencvScanCard:cardImage];
// UIImage *numberImage = cardImage;
if (numberImage == nil) {
completeBlock(numberImage, nil);
}
// TesseractORC识别文字
[self tesseractRecognizeImage:numberImage complete:^(UIImage *cropImage, NSString *numberText) {
completeBlock(numberImage, numberText);
}];
}
- (UIImage *)opencvScanCard:(UIImage *)image
{
// 将UIImage 转换成mat
cv::Mat resultImage;
UIImageToMat(image, resultImage);
// 转为灰度
cvtColor(resultImage, resultImage, cv::COLOR_BGR2GRAY);
// 利用阀值二值化
cv::threshold(resultImage, resultImage, 80, 255, CV_THRESH_BINARY);
// 腐蚀,填充(腐蚀背景)
cv::Mat erodeElement = getStructuringElement(cv::MORPH_RECT, cv::Size(26,26));
cv::erode(resultImage, resultImage, erodeElement);
// 轮廓检测
std::vector<std::vector<cv::Point>> contours; // 定义一个容器来存储所有检测到的轮廓
cv::findContours(resultImage, contours, CV_RETR_TREE, CV_CHAIN_APPROX_SIMPLE, cvPoint(0, 0));
// 取出身份证号码区域
std::vector<cv::Rect> rects;
cv::Rect numberRect = cv::Rect(0,0,0,0);
std::vector<std::vector<cv::Point>>::const_iterator itContours = contours.begin();
for ( ; itContours != contours.end(); ++itContours) {
cv::Rect rect = cv::boundingRect(*itContours);
rects.push_back(rect);
//算法原理
if (rect.width > numberRect.width && rect.width > rect.height * 5) {
numberRect = rect;
}
}
//身份证号码定位失败
if (numberRect.width == 0 || numberRect.height == 0) {
return nil;
}
//定位成功成功,去原图截取身份证号码区域,并转换成灰度图、进行二值化处理
cv::Mat matImage;
UIImageToMat(image, matImage);
resultImage = matImage(numberRect);
// resultImage = matImage;
cvtColor(resultImage, resultImage, cv::COLOR_BGR2GRAY);
cv::threshold(resultImage, resultImage, 80, 255, CV_THRESH_BINARY);
//将Mat转换成UIImage
UIImage *numberImage = MatToUIImage(resultImage);
return numberImage;
}
//利用TesseractOCR识别文字
- (void)tesseractRecognizeImage:(UIImage *)image complete:(CompleteBlock)completeBlock {
dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
G8Tesseract *tesseract = [[G8Tesseract alloc] initWithLanguage:@"eng"];
tesseract.image = [image g8_blackAndWhite];
tesseract.image = image;
// Start the recognition
[tesseract recognize];
//执行回调
dispatch_async(dispatch_get_main_queue(), ^{
completeBlock(image, tesseract.recognizedText);
});
});
}
- (void)tesseractRecogniceWithImage:(UIImage *)inputImage complete:(CompleteBlock)complete
{
[self tesseractRecogniceWithImage:inputImage complete:complete];
}
@end