关于python爬虫的实现问题 无合适标签 原创 未标注

y4ung 4月前 624

各位大佬,小弟遇到一个问题。


我现在要爬取一个新闻网站,这个网站底部有很多页码。网站几乎每隔几分钟就会添加新的新闻,然后把旧的新闻往下挪,甚至挪到了后面页码的页面中。这样一种频繁更新的动态的网站,我应该怎么实现爬取的逻辑呢?


我目前想到的是获取url,做去重,所有页码跑完一遍以后再从前面开始跑脚本。最后就实时的运行脚本,只爬取第一页的内容。


不知道各位大佬有没有更好的建议!请不吝赐教!

最新回复 (2)
  • mengtao 4月前
    0 3
    思路差不多,但最后不是只爬取第一页,而是最后查第一个链接在数据库里就不往后走。
    -------------------------------------
    作者: y4ung
    来源: 夜幕爬虫安全论坛
    原文链接: https://bbs.nightteam.cn/thread-967.htm
    版权声明: 若无额外声明,本帖为作者原创帖,转载请附上帖子链接!
  • y4ung 4月前
    0 2
    不好意思,我好像发错版块了。。
返回