V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wgit
V2EX  ›  Python

关于反爬 js 处理的问题

  •  
  •   wgit · 2023-04-05 00:14:29 +08:00 · 1585 次点击
    这是一个创建于 385 天前的主题,其中的信息可能已经有所发展或是发生改变。

    获取下来的页面代码是这样的

    <span class="rb504"></span>
    

    他要执行一段 js 如

    $(document).ready(function () {
        $('.rb504').html(8080);
        });
    

    最后页面展示

    <span class="rb504">8080</span>
    

    在不使用无头浏览器的情况下

    可以通过 bs4 和 execjs 处理后返回最终渲染后的页面代码吗

    如果有其他方案也行,无头浏览器效率太低了

    8 条回复    2023-04-06 09:17:45 +08:00
    yankebupt
        1
    yankebupt  
       2023-04-05 08:13:19 +08:00   ❤️ 1
    (事先声明,可能没有帮助)
    看你的样子是抓纯文字……不在乎样式、图片什么的……
    无头浏览器你屏蔽图片了么?
    llsquaer
        2
    llsquaer  
       2023-04-05 11:21:02 +08:00   ❤️ 2
    看你演示代码也不算复杂..直接正则匹配下 js 中的代码就好了啊.何必去考虑模拟渲染啥的,没那么复杂
    wgit
        3
    wgit  
    OP
       2023-04-05 11:42:04 +08:00
    @yankebupt 啊这,原来还能屏蔽图片....
    wgit
        4
    wgit  
    OP
       2023-04-05 11:49:21 +08:00
    @llsquaer 目前是在用正则的,在想要是以后遇到比这个复杂的
    无头要打开一个页面要发送至少十几个请求
    只请求页面源代码的话只需要发送两个请求
    如果网站限制每分钟最多多少次访问的话
    在不增加代理 ip 数量的情况下,能不用无头是最好的
    yankebupt
        5
    yankebupt  
       2023-04-05 16:02:49 +08:00   ❤️ 1
    我只是觉得.ready 不是个好兆头

    现在看着是个.ready 很简单,将来可能会挂一堆 eventListener,setInterval 和 Promise 在上面,利用事件的冒泡顺序来生成……
    或者利用浏览器特定的非固定 tag 会被挤到 container tag 之外或者挤没之类的特有特性来验证混淆,逼你模拟 DOM 或生命周期……

    当然 puppeteer 也可能被针对有时还不如简单请求,两说
    yankebupt
        6
    yankebupt  
       2023-04-05 16:18:26 +08:00   ❤️ 1
    不让贴 GPT 回答,不过我问了下,说 puppeteer 不光 headfull 模式,headless 模式也可以加 cache ,多开几个 page 就行,js 只读取一次就行,除非站点反爬抽风,把 js cache disable 了,不过那会影响用户浏览的......
    不知真的假的
    hxy100
        7
    hxy100  
       2023-04-05 17:57:49 +08:00   ❤️ 1
    无头浏览器其实是成本最低的做法,否则针对不同的网站,不管是 PyExecJS 还是正则匹配,你都需要去扒他的 JS 逻辑和算法,很麻烦,简单的网站还可以这种操作,复杂的、JS 代码经过混淆编译的,那基本就是噩梦。
    luzihang
        8
    luzihang  
       2023-04-06 09:17:45 +08:00
    这不算反爬吧,直接正则获取 js 里的值就行
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1007 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 20:41 · PVG 04:41 · LAX 13:41 · JFK 16:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.