V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
caneman
V2EX  ›  Python

现在主流爬虫和技术方向是什么?

  •  
  •   caneman · 2019-07-12 11:16:45 +08:00 · 5248 次点击
    这是一个创建于 1997 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在网上关于爬虫方面的文章,大多都浮于表面,说来说去就那么几个东西,已经很久没有一些实质性的内容了。

    感觉主流爬虫技术的发展和应用,应该还是在大厂内部,想请教一下,现在大厂的主要研究方向和领域一般在哪?

    大家说详细了肯定也不现实,大体说个方向或思路就行,对于在一些小厂的人(比如我= 。 =)来说,有想精进技术的心,奈何抓不到方向也没有渠道去了解,特此来问问 V 友。

    1.现在主流的爬虫方向是不是在 App 端?

    2.针对 App 端的难点或者攻防的焦灼地带是否在证书验证以及 APP 包的加密与破解?

    3.大厂对 2 上面的处理,是陷入了猫和老鼠的游戏还是有自己一套更底层 HOOk 的方法和框架(理解为通杀?)?

    4.同理,web 端感觉主要的难点 Js 和验证码这一块,大厂是打断点一点点去调试分析呢?还是直接加经费丢第三方呢?(尤其是针对拖 /点 /滑类型的验证码现在大厂都是怎么处理的啊?)

    图形验证码可以上机器学习 但是复杂的 JS 呢?模拟还是破解?有什么好的学习方法或路线图吗?

    APP 端爬虫工作范围内接触较少,以前偶尔捣鼓过,如果

    1.APP 端陷入了反编译的猫捉老鼠的游戏

    2.Web 端发展走向了各种模拟,加机器的方向

    那么在具有革命性的技术出现之前,是不是可以考虑把爬虫放一放转去学习其他东西,偶尔来看下出现了什么新的东西就可以了?

    11 条回复    2019-07-15 10:13:18 +08:00
    CoCoMcRee
        1
    CoCoMcRee  
       2019-07-12 11:25:02 +08:00   ❤️ 1
    额...我司小作坊....目前用到的爬虫技术难点主要在与业务紧密结合后.

    数据的纠错与更新检测上面. 这个也和业务相关, 但是里头逻辑又无比复杂.
    smallpython
        2
    smallpython  
       2019-07-12 14:16:24 +08:00   ❤️ 1
    大厂都是买数据
    网络安全法出来了
    爬虫不好做了
    silencefent
        3
    silencefent  
       2019-07-12 14:19:33 +08:00
    脱裤吧,终点就在那里
    caneman
        4
    caneman  
    OP
       2019-07-12 14:22:38 +08:00
    @silencefent 《爬虫:从脱库到入狱》
    colincat
        5
    colincat  
       2019-07-12 16:59:41 +08:00
    不吐你脏数据就不错了😆
    colincat
        6
    colincat  
       2019-07-12 17:00:55 +08:00
    建议你转别的方向,爬虫不是一个特别好的方向,以后肯定会越来越难的
    当然爬虫也不是没有机会,从用户体验的角度来说不可能做到 100%的反爬虫
    luozic
        7
    luozic  
       2019-07-12 17:02:13 +08:00 via iPhone
    爬虫 从入狱到黑产
    xxiu
        8
    xxiu  
       2019-07-12 17:28:10 +08:00
    1. 爬与反爬,基本上就是个对抗过程,苦力活。
    2. 数据 etl,基本上又是个苦力活。
    chloey027
        9
    chloey027  
       2019-07-13 09:35:10 +08:00
    获取数据是一个,后续可以往数据分析,数据展示等方向走
    locoz
        10
    locoz  
       2019-07-13 10:22:19 +08:00 via Android   ❤️ 1
    1、是,也不是,看情况
    2、只在破解加密甚至逆出协议上,证书验证通常不难
    3、据我了解有些大厂确实是有垂直爬虫团队的,似乎使用自动化测试方案的更多些,优先级一般是自家产的数据>从合作伙伴那直接拿数据>买数据>爬数据,属于实在搞不到才去爬的,主要还是规避法律风险。(而且大厂也有钱,一下子搞个几百台手机没什么问题。
    4、据我了解和一般的一样,要么逆向要么直接接打码平台或者层层外包出去找人做。
    5、看你自己的发展规划,我认为垂直爬虫本来是就属于安全领域那种攻防对抗型的,你如果想知道后面会怎么发展、要研究什么,只需要看看以前 PC 端的破解与反破解就行了。
    wyieeLu
        11
    wyieeLu  
       2019-07-15 10:13:18 +08:00
    现在爬虫除了技术,还有法律
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1015 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 18:44 · PVG 02:44 · LAX 10:44 · JFK 13:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.