2回答

0收藏

关于python爬虫需求实现的问题

问答交流 问答交流 1603 人阅读 | 2 人回复 | 2020-12-29


各位大佬,小弟遇到一个问题。




我现在要爬取一个新闻网站,这个网站底部有很多页码。网站几乎每隔几分钟就会添加新的新闻,然后把旧的新闻往下挪,甚至挪到了后面页码的页面中。




这样一种频繁更新的动态的网站,我应该怎么实现爬取的逻辑呢? 我目前想到的是获取url,做去重,所有页码跑完一遍以后再从前面开始跑脚本。最后就实时的运行脚本,只爬取第一页的内容。




不知道各位大佬有没有更好的建议!请不吝赐教!
分享到:
回复

使用道具 举报

回答|共 2 个

mengtao

发表于 2020-12-29 18:55:51 | 显示全部楼层

思路差不多,但最后不是只爬取第一页,而是最后查第一个链接在数据库里就不往后走。
回复

使用道具 举报

y4ung

发表于 2020-12-30 09:49:13 | 显示全部楼层

噢噢好的!thx
回复

使用道具 举报