目录
1.Apache Tika简介
2.Apache Tika配置安装
3.Apache Tika使用体验
1.Apache Tika简介
TiKa
Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。
1.1 功能简介
侦测文档的类型,字符编码,语言,等其他现有文档的属性。
提取结构化的文字内容。
该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.
1.2 支持的文档格式
目前支持的文档格式和对应的解析类库如下:
捕获.PNG
获.PNG
2.Apache Tika配置安装
TiKa版本
TiKa提供了一个命令行界面和一个GUI界面,还提供一个java库。我选择下载了app版。下载地址
输入命令java -jar tika-app-1.15.jar --gui
打开gui图形管理界面:
图片.png
新建待分析文本tika+text.txt
图片.png
Metadata:
图片.png
Formattedtext:
图片.png
plain text:
图片.png
Structured text:
图片.png
由于未知原因。我的json与main content没有提取出来:
图片.png
图片.png
还可以使用java -jar tika-app-1.15.jar --text *.doc
命令进行文本格式的转换,text为要转变的格式,*.doc为你想要转变的文本的物理位置。