Modules: Gne 模块
Tips: 仅支持HTML页面获取,不支持解析页面渲染等。
# conding:utf-8
import requests
from gneimport GeneralNewsExtractor
url ='https://world.huanqiu.com/article/400z21ogDUH'
headers = {
"User-agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
}
response = requests.get(url=url, headers=headers).content.decode('utf-8')
extractor = GeneralNewsExtractor()
article_content = extractor.extract(response)
print(article_content)
打印生成的是一个字典,字典包含title,author,publish_time,content,images,不过有些许不足的地方,用过就知道
{'title': '印尼新冠肺炎新增确诊病例4634例再创新高,累计突破26万例', 'author': '环球时报', 'publish_time': '2020-09-24 17:16', 'content': '【环球时报-环球网报道 记者 徐伟】印尼政府新冠肺炎疫情官方网站9月24日公布的最新数据显示,印尼新冠肺炎累计确诊病例已升至262022例,新增4634例,再创单日增长新高。目前,有191853名患者被治愈,另有10105例死亡病例。过去24小时,新增治愈患者3895人,死亡病例增加128例。\n当地媒体报道称,截至9月24日,印尼疫情已波及34个省级行政区的494个区/市,疫情大流行已影响到该国超过96%的区域。', 'images': []}