异步爬虫的问题:爬取一个异步加载的网页,找到了其中的XHR文件的链接,可以在浏览器打开,但是无法用requests.get爬取,返回404错误,是我的请求头有问
问答交流
1659 人阅读
|
6 人回复
|
2020-11-20
|
import requests headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36' } url='https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtMTE0NDk0OS0wMzAxNTU1IiwicmVxdWVzdGVyRGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUVaN0hFSVBBMlFUUExIR0dZTFM1RUY1WE9MUSIsImV4cCI6MTYwNTg2OTQ4MCwiZGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUhBNVNaRERGV0lFWlFUQktJMkFZU1VORVpHUSJ9.6kpdCXyNh52Yy_WfZHHSO4U7VYVBTkxLX5Fc2clkWXQ' r = requests.get(url, headers=headers) print(r.status_code) |
|
|
|
|
|
|
ncuil
发表于 2020-11-21 09:28:26
|
显示全部楼层
|
|
|
|
|
|
zzzm
发表于 2020-11-21 10:04:39
|
显示全部楼层
我要爬的是这个网站上的评论https://www.amazon.com/gp/profile/amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ;它的内容在XHR文件里,我链接没放对。。链接是:https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtNzE4Mzk1MC04NDgwNTA5IiwiZXhwIjoxNjA1OTI3NDE3LCJkaXJlY3RlZElkIjoiYW16bjEuYWNjb3VudC5BSEE1U1pEREZXSUVaUVRCS0kyQVlTVU5FWkdRIn0.IOUuEguJvl65yXMA-qcpx6tLwXnVUatN3gMncvrBc2M |
|
|
|
|
|
|
zzzm
发表于 2020-11-21 10:06:38
|
显示全部楼层
我用的是浏览器的user-agent 和 cookies |
|
|
|
|
|
|
zzzm
发表于 2020-11-21 10:08:40
|
显示全部楼层
我认为是我请求头缺少了一些东西,但不知道到底是什么,新手刚学这个。。。 |
|
|
|
|
|
|
ncuil
发表于 2020-11-21 18:54:06
|
显示全部楼层
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|
|
|
|
|
|
zzzm
发表于 2020-11-22 14:02:52
|
显示全部楼层
非常感谢,您解决我一个大麻烦。我模仿您这个试了一遍,成功了! |
|
|
|
|
|