安装GeneralNewsExtractor
pip install gne
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '''网站html'''
result = extractor.extract(html, host="https://news.sina.com.cn/")
print(result)
返回字段:
- title:新闻标题
- publish_time:新闻发布时间
- author:新闻作者
- content:新闻正文
- images: 正文中的图片(相对路径或者绝对路径)