新闻网站通用抽取器GNE v0.04版更新，支持提取正文图片与源代码

kingname 发表于 2019-11-26 12:42:31

GeneralNewsExtractor（以下简称 GNE）是一个新闻网页通用抽取器，能够在不指定任何抽取规则的情况下，把新闻网站的正文提取出来。

https://bbs.nightteam.cn/upload/images/201911/12_41_57_26007

https://bbs.nightteam.cn/upload/images/201911/12_42_08_73063 https://bbs.nightteam.cn/upload/images/201911/12_42_19_75730

我们来看一下它的基本使用方法。

安装 GNE
使用 pip 安装：
bash pip install --upgrade git+https://github.com/kingname/GeneralNewsExtractor.git
当然你也可以使用 pipenv 安装：
bash pipenv install git+https://github.com/kingname/GeneralNewsExtractor.git#egg=gne
获取新闻网页源代码
GNE 现在不会，将来也不会提供网页请求的功能，所以你需要自行想办法获取经过渲染以后的网页源代码。你可以使用 Selenium 或者 Pyppeteer 或者直接从浏览器上复制。

这里演示如何直接从浏览器中复制网页的源代码：

1. 在 Chrome 浏览器中打开对应页面，然后开启开发者工具，如下图所示：

https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/2019-11-25-22-21-06.png

2. 在Elements标签页定位到标签，并右键，选择Copy-Copy OuterHTML，如下图所示：

https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/2019-11-25-22-22-12.png

3. 把源代码保存为1.html

提取正文信息
编写如下代码：
from gne import GeneralNewsExtractor
with open('1.html') as f:
    html = f.read()
    extractor = GeneralNewsExtractor()
    result = extractor.extract(html)
    print(result)
运行效果如下图所示：

https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/2019-11-25-22-41-02.png

这次更新了什么
在最新更新的 v0.04版本中，开放了正文图片提取功能，与返回正文源代码功能。其中返回图片 URL 的功能在上面已经演示了，结果中的 images 字段就是正文中的图片。

那么怎么返回正文源代码呢？只需要增加一个参数 with_body_html=True 即可：
from gne import GeneralNewsExtractor
with open('1.html') as f:
    html = f.read()
    extractor = GeneralNewsExtractor()
    result = extractor.extract(html, with_body_html=True)
    print(result)
运行效果如下图所示：

https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/2019-11-25-22-42-45.png

返回结果中的 body_html 就是正文的 html 源代码。

关于 GNE 的深入使用，可以访问GNE 的Github: https://github.com/kingname/GeneralNewsExtractor。

sfhfpc 发表于 2019-11-26 12:46:33

这个库的功能性非常强，而且实用性极高，我也推荐大家去了解 GNE

对于做舆情和新闻站爬虫的工程师来说，这个库就相当于给正在打游戏的你换上了一副机械键盘——丝滑！

搬砖的手微微颤抖 发表于 2019-11-26 13:09:09

强

root 发表于 2019-11-26 13:18:29

给大佬递烟

dirty_dan 发表于 2019-11-26 14:21:31

非常好用，常见网站通杀

kingname 发表于 2019-11-26 15:42:46

感谢2楼的肯定。

deepall 发表于 2019-11-26 16:11:31

厉害

kingname 发表于 2019-11-26 16:15:15

感谢

flyme 发表于 2019-11-26 16:57:43

看介绍是个好东西

Jane 发表于 2019-11-26 17:01:30

支持大佬！！！

页: [1] 2 3

夜幕爬虫安全论坛|爬虫论坛's Archiver

新闻网站通用抽取器GNE v0.04版更新，支持提取正文图片与源代码