6回答

0收藏

异步爬虫的问题:爬取一个异步加载的网页,找到了其中的XHR文件的链接,可以在浏览器打开,但是无法用requests.get爬取,返回404错误,是我的请求头有问

问答交流 问答交流 1655 人阅读 | 6 人回复 | 2020-11-20

import requests
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
     }
url='https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtMTE0NDk0OS0wMzAxNTU1IiwicmVxdWVzdGVyRGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUVaN0hFSVBBMlFUUExIR0dZTFM1RUY1WE9MUSIsImV4cCI6MTYwNTg2OTQ4MCwiZGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUhBNVNaRERGV0lFWlFUQktJMkFZU1VORVpHUSJ9.6kpdCXyNh52Yy_WfZHHSO4U7VYVBTkxLX5Fc2clkWXQ'
r = requests.get(url, headers=headers)
print(r.status_code)
分享到:
回复

使用道具 举报

回答|共 6 个

ncuil

发表于 2020-11-21 09:28:26 | 显示全部楼层

我这浏览器打不开。。你这代码也没带cookie啊
回复

使用道具 举报

zzzm

发表于 2020-11-21 10:04:39 | 显示全部楼层

我要爬的是这个网站上的评论https://www.amazon.com/gp/profile/amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ;它的内容在XHR文件里,我链接没放对。。链接是:https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtNzE4Mzk1MC04NDgwNTA5IiwiZXhwIjoxNjA1OTI3NDE3LCJkaXJlY3RlZElkIjoiYW16bjEuYWNjb3VudC5BSEE1U1pEREZXSUVaUVRCS0kyQVlTVU5FWkdRIn0.IOUuEguJvl65yXMA-qcpx6tLwXnVUatN3gMncvrBc2M
回复

使用道具 举报

zzzm

发表于 2020-11-21 10:06:38 | 显示全部楼层

我用的是浏览器的user-agent 和 cookies
回复

使用道具 举报

zzzm

发表于 2020-11-21 10:08:40 | 显示全部楼层

我认为是我请求头缺少了一些东西,但不知道到底是什么,新手刚学这个。。。
回复

使用道具 举报

ncuil

发表于 2020-11-21 18:54:06 | 显示全部楼层


这样就可以了







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

zzzm

发表于 2020-11-22 14:02:52 | 显示全部楼层

非常感谢,您解决我一个大麻烦。我模仿您这个试了一遍,成功了!
回复

使用道具 举报