7回答

0收藏

新手问个问题

信息分享 信息分享 1482 人阅读 | 7 人回复 | 2021-04-07


我想爬取这个网站来练手,但是网站打开的信息和用代码写出来的信息不一样,



http://www.bxxx.cn/plugin.php?id=fn_job:Ajax&f=GetAjaxList&page=1&class=1&formhash=84182811&province=&city=&dist=&bbclassid=1&bclassid=&classid=&month_wages=&experience=&education=&order=&keyword=






我估计应该是做反扒了,但是这个要怎么破解这个反扒呢
分享到:
回复

使用道具 举报

回答|共 7 个

a297975252

发表于 2021-4-7 21:20:35 | 显示全部楼层

那个网址不好使了,是这个
http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1

他是ajax结构的网站,我想向下滑动的时候继续爬取
回复

使用道具 举报

ayuge

发表于 2021-4-8 18:35:29 | 显示全部楼层

# 貌似没有反爬,cookies 和 params 中 除了 page 都可写死
import requests

cookies = {
     'cbHh_2132_saltkey': 'KR88O11y',
     # 'cbHh_2132_lastvisit': '1617874096',
     # 'cbHh_2132_duceapp_sid': 'x9m7WT',
     # 'UM_distinctid': '178b1068207348-0dee75622936fa-c3f3568-fa000-178b1068208bab',
     # 'CNZZDATA1277983963': '1517974636-1617877672-%7C1617877672',
     # 'cbHh_2132_sid': 'KpY2ZH',
     # 'cbHh_2132_lastact': '1617877697%09plugin.php%09',
}

headers = {
     'Connection': 'keep-alive',
     'Pragma': 'no-cache',
     'Cache-Control': 'no-cache',
     'Accept': 'application/json, text/javascript, */*; q=0.01',
     'X-Requested-With': 'XMLHttpRequest',
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
     'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
     'Referer': 'http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1',
     'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
}

params = (
     ('id', 'fn_job:Ajax'),
     ('f', 'GetAjaxList'),
     ('page', '1'),
     ('class', '1'),
     ('formhash', '1094b37c'),
     ('province', ''),
     ('city', ''),
     ('dist', ''),
     ('bbclassid', '1'),
     ('bclassid', ''),
     ('classid', ''),
     ('month_wages', ''),
     ('experience', ''),
     ('education', ''),
     ('order', ''),
     ('keyword', ''),
)

response = requests.get('http://www.bxxx.cn/plugin.php', headers=headers, params=params, cookies=cookies, verify=False)
print(response.text)
回复

使用道具 举报

凌晨

发表于 2021-4-11 08:47:14 | 显示全部楼层

建议不要练习这种网站,太过于简单了。做出来了没有任何收获。
回复

使用道具 举报

a297975252

发表于 2021-4-15 21:50:49 | 显示全部楼层

感谢大神,但是我有个小小的问题,   你的params里面的('formhash', '1094b37c')为什么和我的不一样,我的是('formhash', '84182811'),   一用我的就会报错,用你这个就正常了  这个是什么?
回复

使用道具 举报

a297975252

发表于 2021-4-15 21:51:37 | 显示全部楼层

我是新手自学,有什么推荐的吗
回复

使用道具 举报

ayuge

发表于 2021-5-8 17:36:50 | 显示全部楼层

formhash 在请求 http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1&classid=1 中返回的 html 中获取;至于 cookies参数中的 cbHh_2132_saltkey 是在
回复

使用道具 举报

ayuge

发表于 2021-5-8 17:46:19 | 显示全部楼层

接上文(不小心回车了,尴尬):http://www.bxxx.cn/plugin.php?id=fn_job&m=list&class=1 中 Set-Cookie 的,参数不能写死,之前我没有验证。其中 cookie 字段设置是在 l.cookie = 这一行,你要自己全局搜索这个"l.cookie ="并断点,用 requests.session 按照 Set-Cookie 的顺序维护 cookie  就行了。
回复

使用道具 举报