3回答

0收藏

趁着没人,水一发

问答交流 问答交流 1816 人阅读 | 3 人回复 | 2020-06-10


单爬虫 workflow如下:

请求 (返回数据)-> 解析(返回items)->去重(返回items)->上报服务端

各位看官看看,这样的workflow有哪些优化的方案



分享到:
回复

使用道具 举报

回答|共 3 个

loco

发表于 2020-6-10 18:03:39 | 显示全部楼层

比如把去重放到服务端?
回复

使用道具 举报

孙锦华

发表于 2020-6-10 18:05:35 | 显示全部楼层

最后两部2和1 下一个优化方案继续
回复

使用道具 举报

孙锦华

发表于 2020-6-10 18:13:18 | 显示全部楼层

可以讨论下某个模块的细节的处理,比如请求中使用cookie池,dns解析使用速度最快的ip之类.
回复

使用道具 举报