背景:项目需要扫描识别技术,比较了微软(智能识别技术)和谷歌的(Tess4J),决定使用这个开源的东东。
建议:
1、可以到GitHub找相关的Tess4J项目
2、到Tess4J官方下载最新的包,查看示例代码 http://tess4j.sourceforge.net/
3、到Tess4J官网下载示例代码 https://sourceforge.net/projects/tess4j/ 速度比较慢
4、指导页面,对应编辑器,建立简单代码 http://tess4j.sourceforge.net/tutorial/
一、项目结构:使用eclipse 构建java项目,下图为项目结构
构建TestTess4j.java,(勾选作为main函数)
public class TestTess4j {
public static void main(String args[]) {
File imageFile = new File("eurotext.tif");
Tesseract instance = Tesseract.getInstance();
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (Exception e) {
System.err.println(e.getCause());
}
}
}
右击运行,java application ,选择你的main类,TestTess4j。
输出成功。
注意:jar包和dll文件是对应的,更高版本的dll文件在jar包中,可以不引用dll文件。
二、创建web项目,引用具有多个API接口类的Tess4J项目。
三、整个过程碰到的问题
1、找不到tess4j
原因,仅仅在class path中引入了jar包,没有在WEB-INF的lib目录下拷贝jar包,总是报错。
2、找不到模块
一个jar包,对应一个dll,每个dll版本不同名称不同,系统也区分32--64,在LoadLibs.java中有
如果不清楚版本号,可以使用ZAR打开jar包,查看里面的dll文件名称。
注意:lept4j.jar 和test4J.jar的版本要对应,因为它们里面打包了dll文件,需要匹配。
这个属于tessract实例化的时候,默认找不到tessdata包,因为这个包里面有对应的语言训练包,需要指定
这里直接使用了绝对路径
4、java.jna.pointer报错
这个是因为tess4j的jar包问题,需要更换对应的版本
5、java.lang.UnsatisfiedLinkError
这个是因为dll文件不能正常加载的问题,这个有很多可能性
(1)、dll文件和你本地系统的c++环境不匹配,不同的libtesseract3**貌似使用的是不同版本的vs编辑器,
我的302最终,我重新到微软的官网下载了运行的配件
这个是2013组件地址 https://www.microsoft.com/zh-cn/download/details.aspx?id=40784
(2)、dll文件缺失或者错误匹配
例如302.dll需要匹配168
而305则需要匹配174
这个可以通过dll检测软件来查询,
找对应的dll文件
https://sourceforge.net/projects/tess4j/files/lept4j/
使用Dependency Walker工具查看DLL文件,通过软件打开libtesseract302.dll如果缺少liblept***.dll则会出现黄色叹号,
(3)你的系统可能缺少必要的dll文件,通过刚才的软件,打开dll后,看到黄色叹号,表示缺少软件
经测试,有叹号的情况也能正常运行。
三、web项目的目录结构