爬虫的难点总结 无合适标签 原创

wjsw1781 2019-11-25 4911

js动态加载

阻碍抓包 

循环debug 

参数加密 (算看到了是加密  通过检查js也找不到加密过程) 

控制流平坦化混淆

js代码动态变化

验证码


最新回复 (18)
  • YDXX丶 2019-12-3
    1 19
    赶紧出书别bb
  • chad 2019-12-3
    0 18
    坐等新书
  • 0 17
    最近新遇到一个cookie生成  这边这个cookie生成需要在跟后端验证以后才能生效 ,验证的方法是滑动验证码 emmm
  • 0 16
    gzwgq222 想请教下,用 node 来做爬虫,破解反爬虫现有的方案会不会相对 python 来说会少很多?虽然破解的原理都是一样的。
    node是做js破解方面最好的语言,没有之一,你爬虫逻辑还可以用py写,只是js那块交给node来做,然后通信调度。
  • gzwgq222 2019-12-1
    0 15
    想请教下,用 node 来做爬虫,破解反爬虫现有的方案会不会相对 python 来说会少很多?虽然破解的原理都是一样的。
  • 0 14
    期待书
  • 花儿谢了 2019-11-29
    1 13
    花儿谢了 特定版本浏览器下的特定场景
    只有
    (function(){}).constructor === Function
    是true的浏览器,你这个重写才有效。
  • 花儿谢了 2019-11-29
    0 12
    战神洞洞妖 无限debugger的问题, 可以尝试以下解决方案(本人尝试有效): 1. 出现debugger后,在console选项卡输入:Function.prototype.constructor = fu ...
    特定版本浏览器下的特定场景
  • 2 11
    无限debugger的问题, 可以尝试以下解决方案(本人尝试有效):
    1. 出现debugger后,在console选项卡输入:Function.prototype.constructor = function(){},并回车;
    2. 切换回sources选项卡,点击继续执行,无限debugger的问题就解决了。
  • 花儿谢了 2019-11-29
    0 10
    你好哈哈 《Python3 反爬虫原理与绕过实战》网上哪里有得卖呢?
    还没开始卖呐,耽搁了
  • 你好哈哈 2019-11-26
    0 9
    《Python3 反爬虫原理与绕过实战》网上哪里有得卖呢?
  • lycanthrope 2019-11-26
    0 8
    搬个小板凳,等书!!!
  • 0 7
    你们这都是http的难点,我这边现在甚至还要搞websocket和TCPsocket
  • 非牛 2019-11-26
    0 6
    难点多了,APP端一大堆,pc端也一大堆,验证码不是难点了?
  • Crawler42 2019-11-26
    0 5
    会出电子版吗?
  • Fizzyi 2019-11-25
    0 4
    sfhfpc 爬虫是综合技术的应用,反爬虫同样也是综合技术的应用。 我看楼主提到的无限 Debugger、动态加载和加密等问题。 我补充一下,这不仅仅是 JavaScript 的问题,还会涉及 CSS、 ...
    所以书什么时候出呢 说好的双11呢
  • sfhfpc 2019-11-25
    0 3

    爬虫是综合技术的应用,反爬虫同样也是综合技术的应用。

    我看楼主提到的无限 Debugger、动态加载和加密等问题。

    我补充一下,这不仅仅是 JavaScript 的问题,还会涉及 CSS、浏览器渲染原理、服务器、后端逻辑、编码、加密,甚至是协议。

    《Python3 反爬虫原理与绕过实战》一书有提到无限 Debugger 的成因和解决方法、常见的加密算法,但没有提到动态加载的问题。

    反爬虫方面的处理大多不是单一技术,建议从头到尾了解一遍。这样在遇到问题的时候就比较容易找到办法,不会有无从下手的情况

  • 七仔 2019-11-25
    0 2
    期待书
返回