爬虫的难点总结
js动态加载
阻碍抓包
循环debug
参数加密 (算看到了是加密 通过检查js也找不到加密过程)
控制流平坦化混淆
js代码动态变化
验证码
期待书 爬虫是综合技术的应用,反爬虫同样也是综合技术的应用。
我看楼主提到的无限 Debugger、动态加载和加密等问题。
我补充一下,这不仅仅是 JavaScript 的问题,还会涉及 CSS、浏览器渲染原理、服务器、后端逻辑、编码、加密,甚至是协议。
![](https://bbs.nightteam.cn/upload/images/201911/19_49_06_78490)
《Python3 反爬虫原理与绕过实战》一书有提到无限 Debugger 的成因和解决方法、常见的加密算法,但没有提到动态加载的问题。
反爬虫方面的处理大多不是单一技术,建议从头到尾了解一遍。这样在遇到问题的时候就比较容易找到办法,不会有无从下手的情况 所以书什么时候出呢 说好的双11呢 会出电子版吗? 难点多了,APP端一大堆,pc端也一大堆,验证码不是难点了? 你们这都是http的难点,我这边现在甚至还要搞websocket和TCPsocket 搬个小板凳,等书!!! 《Python3 反爬虫原理与绕过实战》网上哪里有得卖呢? 还没开始卖呐,耽搁了
页:
[1]
2