pdf处理思路
1 抽取文本数据
2 抽取图片数据
3 抽取表格数据
==》 人名 地名 年代
==》 行业 行业词库 行业编年史 行业人物 行业地点 行业事件
==》 地图数据 地名 范围
方案处理思路
文本处理 ---》 打标签 关系图 关联关系
自然语言处理包
表格处理 表格 --
pyxlrd xml
图片处理 图片标题 -- 图片 --人物 关联
pdf处理思路
1 抽取文本数据
2 抽取图片数据
3 抽取表格数据
==》 人名 地名 年代
==》 行业 行业词库 行业编年史 行业人物 行业地点 行业事件
==》 地图数据 地名 范围
方案处理思路
文本处理 ---》 打标签 关系图 关联关系
自然语言处理包
表格处理 表格 --
pyxlrd xml
图片处理 图片标题 -- 图片 --人物 关联