关于python爬虫需求实现的问题

y4ung

各位大佬，小弟遇到一个问题。

我现在要爬取一个新闻网站，这个网站底部有很多页码。网站几乎每隔几分钟就会添加新的新闻，然后把旧的新闻往下挪，甚至挪到了后面页码的页面中。

这样一种频繁更新的动态的网站，我应该怎么实现爬取的逻辑呢？我目前想到的是获取url，做去重，所有页码跑完一遍以后再从前面开始跑脚本。最后就实时的运行脚本，只爬取第一页的内容。

不知道各位大佬有没有更好的建议！请不吝赐教！

mengtao · 发表于 2020-12-29 18:55:51

思路差不多，但最后不是只爬取第一页，而是最后查第一个链接在数据库里就不往后走。

y4ung · 发表于 2020-12-30 09:49:13

噢噢好的！thx

关于python爬虫需求实现的问题

y4ung LV1