回答

收藏

GNE v0.1 正式发布: 4 行代码开发新闻网站通用爬虫

信息分享 信息分享 2130 人阅读 | 0 人回复 | 2020-01-01


GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。




夜幕不支持发布 Markdown,从别处复制过来代码混乱了,所以请大家点击:




https://mp.weixin.qq.com/s/i8tDcwgaHAS_oBX8w0BPRw



分享到:
回复

使用道具 举报