异步爬虫的问题:爬取一个异步加载的网页,找到了其中的XHR文件的链接,可以在浏览器打开,但是无法用requests.get爬取,返回404错误,是我的请求头有问题吗,我有添加简单的user-agent和cookies参数

zzzm 5天前 84

import requests headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36' } url='https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtMTE0NDk0OS0wMzAxNTU1IiwicmVxdWVzdGVyRGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUVaN0hFSVBBMlFUUExIR0dZTFM1RUY1WE9MUSIsImV4cCI6MTYwNTg2OTQ4MCwiZGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUhBNVNaRERGV0lFWlFUQktJMkFZU1VORVpHUSJ9.6kpdCXyNh52Yy_WfZHHSO4U7VYVBTkxLX5Fc2clkWXQ' r = requests.get(url, headers=headers) print(r.status_code)
最新回复 (6)
  • zzzm 3天前
    0 7
    ncuil 这样就可以了
    非常感谢,您解决我一个大麻烦。我模仿您这个试了一遍,成功了!
  • ncuil 4天前
    0 6
    zzzm 我认为是我请求头缺少了一些东西,但不知道到底是什么,新手刚学这个。。。

    这样就可以了




  • zzzm 4天前
    0 5
    ncuil 我这浏览器打不开。。你这代码也没带cookie啊
    我认为是我请求头缺少了一些东西,但不知道到底是什么,新手刚学这个。。。
  • zzzm 4天前
    0 4
    我用的是浏览器的user-agent 和 cookies
  • zzzm 4天前
    0 3
    我要爬的是这个网站上的评论https://www.amazon.com/gp/profile/amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ;它的内容在XHR文件里,我链接没放对。。链接是:https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtNzE4Mzk1MC04NDgwNTA5IiwiZXhwIjoxNjA1OTI3NDE3LCJkaXJlY3RlZElkIjoiYW16bjEuYWNjb3VudC5BSEE1U1pEREZXSUVaUVRCS0kyQVlTVU5FWkdRIn0.IOUuEguJvl65yXMA-qcpx6tLwXnVUatN3gMncvrBc2M
  • ncuil 4天前
    0 2
    我这浏览器打不开。。你这代码也没带cookie啊
返回