python爬虫爬取研究员的网站

唐先生 2月前 874

悬赏标题
悬赏金额
悬赏截止日期
悬赏人
联系方式
支付方式
悬赏成功判定标准
网址或者下载链接

问题1: 大概情况就是,比如我想找这位研究员的作者信息:https://www.researchgate.net/profile/Zabrina_Brumme/ 直接用这个url是无需网站对你的浏览器验证 但是如果publications多于100,就需要翻页操作,比如ttps://www.researchgate.net/profile/Zabrina_Brumme/2 但是如果直接访问这个页面,用的就是另一个cookies了,有浏览器验证的环节 我希望这个环节可以用requests.get弄出来 问题2:(在你解决了第一个问题后) https://www.researchgate.net/profile/Zabrina_Brumme/ 页面下面有366个publications,比如,第一个的超链接就是 https://www.researchgate.net/publication/338493379_Longitudinal_within-host_evolution_of_HIV_Nef-mediated_CD4_HLA_and_SERINC5_downregulation_activity_a_case_study  也就是说有366个其他超链接,现在我要在不time.sleep的情况下对这些超链接进行访问并且获取到该页面的信息,目前来说你在进入超链接页面后,把abstract这个html元素提取出来即可。 【达成条件,我给你几个我手里其他人的链接】,在指定的时间内返回给我一个excel表格,如果我确认没问题,就可以交货了。【注意,每100个链接,我要求用时不得超过2分钟,这是判定是否成功的最终条件,不然我自己限流time.sleep也能做出来!!!】注意一些坑,有超级验证码机制,有把你ban掉的机制,不太确定cookies能解决问题 你要真能做出来了,价格可以详谈。哦

最新回复 (8)
  • 0 9
    想的太简单了
  • 爱锭 1月前
    0 8
    有点横啊,兄弟。一看就是甲方,哈哈哈哈,而且是不尊重程序员的甲方。主要是200块太低了呀
  • tankjam 1月前
    0 7
    200 哈哈哈
  • 0 6
    看见你的条件我就想笑了
  • kangvcar 2月前
    0 5
    同意楼上
  • 0 4
    wx: Haxp--
  • 0 3
    加q 1196039325, 详谈
  • mengtao 2月前
    1 2
    兄弟 我估计你不了解爬虫
返回