html页面不规则提取

葫芦娃他爷爷啊

现有大规模html页面，每个页面结构都不相同，我需要在页面中提取出关键字，

如中标人，中标金额等等，现使用正则，匹配成功率比较低，有什么好的方法建议吗?

admin2 · 发表于 2020-9-19 19:57:13

重新写正则

葫芦娃他爷爷啊 · 发表于 2020-9-21 09:05:22

他页面字段都不一致，正则匹配成功率太低了，大神有什么好办法吗，有偿

血音乐 · 发表于 2020-9-21 11:15:18

好像有页面信息抽取算法可以试试？根据文本密度去提取信息，提取出来之后再清洗？

葫芦娃他爷爷啊 · 发表于 2020-9-21 14:38:45

能指点下吗？我只知道有个GEN的新闻类抽取算法

nejo · 发表于 2020-9-21 17:48:03

有网站可以看看吗什么样的格式

葫芦娃他爷爷啊 · 发表于 2020-9-22 08:51:13

就是中标类的网站，需要把中标人和金额等关键字提出来
因为有文本格式，表格格式，所以比较麻烦
http://kz.gongchengyan.com/HtmlFolder/10/2020/9/18/ed0be228-3e36-4c32-a1b3-6a71831fd353.html
http://kz.gongchengyan.com/HtmlFolder/10/2020/9/22/3196f956-8944-439f-9567-f074b2d8ead9.html

nejo · 发表于 2020-9-22 10:12:37

你可以用pandas的read_html方法提取表格试下

葫芦娃他爷爷啊 · 发表于 2020-9-22 10:22:02

表格类的试了，用pands可以提取一部分，就是文本类型的比较多，所以想看看有什么算法

深刻理解精髓 · 发表于 2020-9-24 13:58:59

既然你这个通用招投标站点，那就先去看gen新闻抽取，先学习别人怎么做的，再模仿。张嘴就问，成熟的全国就那么几家，知道的也不会跟你说，靠自己@！！！！！

html页面不规则提取

葫芦娃他爷爷啊 LV1