新手问个问题
我想爬取这个网站来练手,但是网站打开的信息和用代码写出来的信息不一样,
http://www.bxxx.cn/plugin.php?id=fn_job:Ajax&f=GetAjaxList&page=1&class=1&formhash=84182811&province=&city=&dist=&bbclassid=1&bclassid=&classid=&month_wages=&experience=&education=&order=&keyword=
我估计应该是做反扒了,但是这个要怎么破解这个反扒呢
那个网址不好使了,是这个
http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1
他是ajax结构的网站,我想向下滑动的时候继续爬取 # 貌似没有反爬,cookies 和 params 中 除了 page 都可写死
import requests
cookies = {
'cbHh_2132_saltkey': 'KR88O11y',
# 'cbHh_2132_lastvisit': '1617874096',
# 'cbHh_2132_duceapp_sid': 'x9m7WT',
# 'UM_distinctid': '178b1068207348-0dee75622936fa-c3f3568-fa000-178b1068208bab',
# 'CNZZDATA1277983963': '1517974636-1617877672-%7C1617877672',
# 'cbHh_2132_sid': 'KpY2ZH',
# 'cbHh_2132_lastact': '1617877697%09plugin.php%09',
}
headers = {
'Connection': 'keep-alive',
'Pragma': 'no-cache',
'Cache-Control': 'no-cache',
'Accept': 'application/json, text/javascript, */*; q=0.01',
'X-Requested-With': 'XMLHttpRequest',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Referer': 'http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1',
'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
}
params = (
('id', 'fn_job:Ajax'),
('f', 'GetAjaxList'),
('page', '1'),
('class', '1'),
('formhash', '1094b37c'),
('province', ''),
('city', ''),
('dist', ''),
('bbclassid', '1'),
('bclassid', ''),
('classid', ''),
('month_wages', ''),
('experience', ''),
('education', ''),
('order', ''),
('keyword', ''),
)
response = requests.get('http://www.bxxx.cn/plugin.php', headers=headers, params=params, cookies=cookies, verify=False)
print(response.text) 建议不要练习这种网站,太过于简单了。做出来了没有任何收获。 感谢大神,但是我有个小小的问题, 你的params里面的('formhash', '1094b37c')为什么和我的不一样,我的是('formhash', '84182811'), 一用我的就会报错,用你这个就正常了这个是什么? 我是新手自学,有什么推荐的吗 formhash 在请求 http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1 中返回的 html 中获取;至于 cookies参数中的 cbHh_2132_saltkey 是在 接上文(不小心回车了,尴尬):http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1 中 Set-Cookie 的,参数不能写死,之前我没有验证。其中 cookie 字段设置是在 l.cookie = 这一行,你要自己全局搜索这个"l.cookie ="并断点,用 requests.session 按照 Set-Cookie 的顺序维护 cookie就行了。
页:
[1]