新闻网站网页XPATH提取神器GeneralNewsExtractor

安装GeneralNewsExtractor
pip install gne
from gne import GeneralNewsExtractor

extractor = GeneralNewsExtractor()
html = '''网站html'''
result = extractor.extract(html, host="https://news.sina.com.cn/")
print(result)

返回字段:
  • title:新闻标题
  • publish_time:新闻发布时间
  • author:新闻作者
  • content:新闻正文
  • images: 正文中的图片(相对路径或者绝对路径)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容