最近一直在弄这个东东,找xpath,用火狐的firepath和谷歌一起找。效果还行。
但是还是存在着不少问题,查找正文的时候,用firepath就感觉不能很准确的找到我需要的div或者table,而用谷歌可以直接根据相关div或者td、tr找到需要的div或者具体的table。从准确和易操作上,一般我用谷歌找正文。
找列表名称和链接我会用firepath,比较直观的看到对应的列表和链接,一般删除一下tr或者li后面的[]就可以选择整个列表,但是偶尔也会把面包屑导航给一起选择进去,后来咨询了领导,可以在[]里输入position()>数字。这样就可以避免连同导航一起抓来了。正文偶尔也会在table里出现[打印]、[下载]。是否可以用这个方法针对tr来设置position()<数字或者是一个区间段,目前还没有试过。再次遇到可以尝试一下。
为了能更准确的抓到想要的东西,还得多了解一下xpath及html的一些代码。这样就可以让处理这些信息的人多点时间。处理更多的信息了。