异步爬虫的问题：爬取一个异步加载的网页，找到了其中的XHR文件的链接，可以在浏览器打开，但是无法用requests.get爬取，返回404错误，是我的请求头有问

zzzm

import requests
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
}
url='https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtMTE0NDk0OS0wMzAxNTU1IiwicmVxdWVzdGVyRGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUVaN0hFSVBBMlFUUExIR0dZTFM1RUY1WE9MUSIsImV4cCI6MTYwNTg2OTQ4MCwiZGlyZWN0ZWRJZCI6ImFtem4xLmFjY291bnQuQUhBNVNaRERGV0lFWlFUQktJMkFZU1VORVpHUSJ9.6kpdCXyNh52Yy_WfZHHSO4U7VYVBTkxLX5Fc2clkWXQ'
r = requests.get(url, headers=headers)
print(r.status_code)

ncuil · 发表于 2020-11-21 09:28:26

我这浏览器打不开。。你这代码也没带cookie啊

zzzm · 发表于 2020-11-21 10:04:39

我要爬的是这个网站上的评论https://www.amazon.com/gp/profile/amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ；它的内容在XHR文件里，我链接没放对。。链接是：https://www.amazon.com/profilewidget/timeline/visitor?nextPageToken=&filteredContributionTypes=productreview%2Cglimpse%2Cideas&directedId=amzn1.account.AHA5SZDDFWIEZQTBKI2AYSUNEZGQ&token=eyJhbGciOiJIUzI1NiJ9.eyJzZXNzaW9uSWQiOiIxNDYtNzE4Mzk1MC04NDgwNTA5IiwiZXhwIjoxNjA1OTI3NDE3LCJkaXJlY3RlZElkIjoiYW16bjEuYWNjb3VudC5BSEE1U1pEREZXSUVaUVRCS0kyQVlTVU5FWkdRIn0.IOUuEguJvl65yXMA-qcpx6tLwXnVUatN3gMncvrBc2M

zzzm · 发表于 2020-11-21 10:06:38

我用的是浏览器的user-agent 和 cookies

zzzm · 发表于 2020-11-21 10:08:40

我认为是我请求头缺少了一些东西，但不知道到底是什么，新手刚学这个。。。

ncuil · 发表于 2020-11-21 18:54:06

这样就可以了

zzzm · 发表于 2020-11-22 14:02:52

非常感谢，您解决我一个大麻烦。我模仿您这个试了一遍，成功了！

异步爬虫的问题：爬取一个异步加载的网页，找到了其中的XHR文件的链接，可以在浏览器打开，但是无法用requests.get爬取，返回404错误，是我的请求头有问

本帖子中包含更多资源

zzzm LV1