8回答

0收藏

python爬虫爬取研究员的网站

悬赏求解 悬赏求解 4162 人阅读 | 8 人回复 | 2020-08-03


问题1: 大概情况就是,比如我想找这位研究员的作者信息:https://www.researchgate.net/profile/Zabrina_Brumme/ 直接用这个url是无需网站对你的浏览器验证 但是如果publications多于100,就需要翻页操作,比如ttps://www.researchgate.net/profile/Zabrina_Brumme/2 但是如果直接访问这个页面,用的就是另一个cookies了,有浏览器验证的环节

我希望这个环节可以用requests.get弄出来



问题2:(在你解决了第一个问题后) https://www.researchgate.net/profile/Zabrina_Brumme/ 页面下面有366个publications,比如,第一个的超链接就是 https://www.researchgate.net/publication/338493379_Longitudinal_within-host_evolution_of_HIV_Nef-mediated_CD4_HLA_and_SERINC5_downregulation_activity_a_case_study  也就是说有366个其他超链接,现在我要在不time.sleep的情况下对这些超链接进行访问并且获取到该页面的信息,目前来说你在进入超链接页面后,把abstract这个html元素提取出来即可。 【达成条件,我给你几个我手里其他人的链接】,在指定的时间内返回给我一个excel表格,如果我确认没问题,就可以交货了。【注意,每100个链接,我要求用时不得超过2分钟,这是判定是否成功的最终条件,不然我自己限流time.sleep也能做出来!!!】注意一些坑,有超级验证码机制,有把你ban掉的机制,不太确定cookies能解决问题



你要真能做出来了,价格可以详谈。哦
分享到:
回复

使用道具 举报

回答|共 8 个

mengtao

发表于 2020-8-12 11:40:36 | 显示全部楼层

兄弟 我估计你不了解爬虫
回复

使用道具 举报

1196039325

发表于 2020-8-12 11:56:16 | 显示全部楼层

加q 1196039325, 详谈
回复

使用道具 举报

1196039325

发表于 2020-8-12 12:08:46 | 显示全部楼层

wx: Haxp--
回复

使用道具 举报

kangvcar

发表于 2020-8-18 09:57:56 | 显示全部楼层

同意楼上
回复

使用道具 举报

世界核平

发表于 2020-8-26 16:45:04 | 显示全部楼层

看见你的条件我就想笑了
回复

使用道具 举报

tankjam

发表于 2020-9-3 17:06:39 | 显示全部楼层

200 哈哈哈
回复

使用道具 举报

爱锭

发表于 2020-9-6 15:39:05 | 显示全部楼层

有点横啊,兄弟。一看就是甲方,哈哈哈哈,而且是不尊重程序员的甲方。主要是200块太低了呀
回复

使用道具 举报

小韩古城

发表于 2020-10-16 17:05:24 | 显示全部楼层

想的太简单了
回复

使用道具 举报