9回答

0收藏

html页面不规则提取

问答交流 问答交流 2802 人阅读 | 9 人回复 | 2020-09-19

现有大规模html页面,每个页面结构都不相同,我需要在页面中提取出关键字,

     如中标人,中标金额等等,现使用正则,匹配成功率比较低,有什么好的方法建议吗?
分享到:
回复

使用道具 举报

回答|共 9 个

admin2

发表于 2020-9-19 19:57:13 | 显示全部楼层

重新写正则
回复

使用道具 举报

葫芦娃他爷爷啊

发表于 2020-9-21 09:05:22 | 显示全部楼层

他页面字段都不一致,正则匹配成功率太低了,大神有什么好办法吗,有偿
回复

使用道具 举报

血音乐

发表于 2020-9-21 11:15:18 | 显示全部楼层

好像有页面信息抽取算法可以试试?根据文本密度去提取信息,提取出来之后再清洗?
回复

使用道具 举报

葫芦娃他爷爷啊

发表于 2020-9-21 14:38:45 | 显示全部楼层

能指点下吗?  我只知道有个GEN的新闻类抽取算法
回复

使用道具 举报

nejo

发表于 2020-9-21 17:48:03 | 显示全部楼层

有网站可以看看吗什么样的格式
回复

使用道具 举报

葫芦娃他爷爷啊

发表于 2020-9-22 08:51:13 | 显示全部楼层

就是中标类的网站,需要把中标人和金额等关键字提出来
因为有文本格式,表格格式,所以比较麻烦
http://kz.gongchengyan.com/HtmlFolder/10/2020/9/18/ed0be228-3e36-4c32-a1b3-6a71831fd353.html
http://kz.gongchengyan.com/HtmlFolder/10/2020/9/22/3196f956-8944-439f-9567-f074b2d8ead9.html
回复

使用道具 举报

nejo

发表于 2020-9-22 10:12:37 | 显示全部楼层

你可以用pandas的read_html方法提取表格试下
回复

使用道具 举报

葫芦娃他爷爷啊

发表于 2020-9-22 10:22:02 | 显示全部楼层

表格类的试了,用pands可以提取一部分,就是文本类型的比较多,所以想看看有什么算法
回复

使用道具 举报

深刻理解精髓

发表于 2020-9-24 13:58:59 | 显示全部楼层

既然你这个通用招投标站点,那就先去看gen新闻抽取,先学习别人怎么做的,再模仿。张嘴就问,成熟的全国就那么几家,知道的也不会跟你说,靠自己@!!!!!
回复

使用道具 举报