2回答

0收藏

关于python爬虫的实现问题

问答交流 问答交流 1603 人阅读 | 2 人回复 | 2020-12-29


各位大佬,小弟遇到一个问题。





我现在要爬取一个新闻网站,这个网站底部有很多页码。网站几乎每隔几分钟就会添加新的新闻,然后把旧的新闻往下挪,甚至挪到了后面页码的页面中。这样一种频繁更新的动态的网站,我应该怎么实现爬取的逻辑呢?




我目前想到的是获取url,做去重,所有页码跑完一遍以后再从前面开始跑脚本。最后就实时的运行脚本,只爬取第一页的内容。




不知道各位大佬有没有更好的建议!请不吝赐教!
分享到:
回复

使用道具 举报

回答|共 2 个

y4ung

发表于 2020-12-29 11:01:17 | 显示全部楼层

不好意思,我好像发错版块了。。
回复

使用道具 举报

mengtao

发表于 2020-12-29 18:56:01 | 显示全部楼层

思路差不多,但最后不是只爬取第一页,而是最后查第一个链接在数据库里就不往后走。
-------------------------------------
作者: y4ung
来源: 夜幕爬虫安全论坛
原文链接: https://bbs.nightteam.cn/thread-967.htm
版权声明: 若无额外声明,本帖为作者原创帖,转载请附上帖子链接!
回复

使用道具 举报