a297975252 发表于 2021-4-7 21:19:05

新手问个问题


我想爬取这个网站来练手,但是网站打开的信息和用代码写出来的信息不一样,



http://www.bxxx.cn/plugin.php?id=fn_job:Ajax&f=GetAjaxList&page=1&class=1&formhash=84182811&province=&city=&dist=&bbclassid=1&bclassid=&classid=&month_wages=&experience=&education=&order=&keyword=






我估计应该是做反扒了,但是这个要怎么破解这个反扒呢

a297975252 发表于 2021-4-7 21:20:35

那个网址不好使了,是这个
http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1

他是ajax结构的网站,我想向下滑动的时候继续爬取

ayuge 发表于 2021-4-8 18:35:29

# 貌似没有反爬,cookies 和 params 中 除了 page 都可写死
import requests

cookies = {
   'cbHh_2132_saltkey': 'KR88O11y',
   # 'cbHh_2132_lastvisit': '1617874096',
   # 'cbHh_2132_duceapp_sid': 'x9m7WT',
   # 'UM_distinctid': '178b1068207348-0dee75622936fa-c3f3568-fa000-178b1068208bab',
   # 'CNZZDATA1277983963': '1517974636-1617877672-%7C1617877672',
   # 'cbHh_2132_sid': 'KpY2ZH',
   # 'cbHh_2132_lastact': '1617877697%09plugin.php%09',
}

headers = {
   'Connection': 'keep-alive',
   'Pragma': 'no-cache',
   'Cache-Control': 'no-cache',
   'Accept': 'application/json, text/javascript, */*; q=0.01',
   'X-Requested-With': 'XMLHttpRequest',
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
   'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
   'Referer': 'http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1',
   'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
}

params = (
   ('id', 'fn_job:Ajax'),
   ('f', 'GetAjaxList'),
   ('page', '1'),
   ('class', '1'),
   ('formhash', '1094b37c'),
   ('province', ''),
   ('city', ''),
   ('dist', ''),
   ('bbclassid', '1'),
   ('bclassid', ''),
   ('classid', ''),
   ('month_wages', ''),
   ('experience', ''),
   ('education', ''),
   ('order', ''),
   ('keyword', ''),
)

response = requests.get('http://www.bxxx.cn/plugin.php', headers=headers, params=params, cookies=cookies, verify=False)
print(response.text)

凌晨 发表于 2021-4-11 08:47:14

建议不要练习这种网站,太过于简单了。做出来了没有任何收获。

a297975252 发表于 2021-4-15 21:50:49

感谢大神,但是我有个小小的问题,   你的params里面的('formhash', '1094b37c')为什么和我的不一样,我的是('formhash', '84182811'),   一用我的就会报错,用你这个就正常了这个是什么?

a297975252 发表于 2021-4-15 21:51:37

我是新手自学,有什么推荐的吗

ayuge 发表于 2021-5-8 17:36:50

formhash 在请求 http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1 中返回的 html 中获取;至于 cookies参数中的 cbHh_2132_saltkey 是在

ayuge 发表于 2021-5-8 17:46:19

接上文(不小心回车了,尴尬):http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1 中 Set-Cookie 的,参数不能写死,之前我没有验证。其中 cookie 字段设置是在 l.cookie = 这一行,你要自己全局搜索这个"l.cookie ="并断点,用 requests.session 按照 Set-Cookie 的顺序维护 cookie就行了。
页: [1]
查看完整版本: 新手问个问题