V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zoosucker
V2EX  ›  问与答

理论上爬虫能爬取到所有我们看到的页面吗?

  •  
  •   zoosucker · 2014-04-02 14:11:48 +08:00 · 3849 次点击
    这是一个创建于 3648 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如果每次浏览器和服务器的通信都有一个token,而我们又无法看懂到底是什么,那么我们的爬虫是不是就无法爬取页面信息了啊?
    11 条回复    2014-04-29 10:18:33 +08:00
    Esay
        1
    Esay  
       2014-04-02 14:17:58 +08:00   ❤️ 1
    是的。
    抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。
    asing
        2
    asing  
       2014-04-02 14:24:30 +08:00
    lz的问题可以这样理解不

    如果一个网站的管理后台路径是example.com/ksdks31
    这样爬虫也抓取不到吧

    这样只需书签下地址就可以,也不用做ip访问限制等策略了.
    jsonline
        3
    jsonline  
       2014-04-02 14:25:09 +08:00 via Android
    天天有人研究爬虫
    binux
        4
    binux  
       2014-04-02 14:31:40 +08:00
    我们看到页面是一个获得信息,消除信息不确定性的过程,爬虫也是
    dorentus
        5
    dorentus  
       2014-04-02 15:46:59 +08:00
    理论上么,爬虫和浏览器一样都是 user agent,自然能做的东西都是一样的……
    cxh116
        6
    cxh116  
       2014-04-02 15:49:03 +08:00
    像某些小说站,内容都生成图片了,这个应该是无法索引
    msg7086
        7
    msg7086  
       2014-04-02 17:40:54 +08:00
    @asing 说不定就有浏览器连书签也爬虫给你看
    xh1994
        8
    xh1994  
       2014-04-03 00:13:21 +08:00
    不能!那些通过 ajax 加载内容的页面你怎么爬?而且现在这样的页面越来越多了!
    mengli
        9
    mengli  
       2014-04-03 00:14:46 +08:00 via Android
    @cxh116 弄个orc文字识别如何?你总不可能把文章加工的很验证码一样。
    cxh116
        10
    cxh116  
       2014-04-06 19:38:38 +08:00
    @mengli ocr的话,不同的站用不同的字体,而且还有很多站加了背景图之类的

    通用的蜘蛛实现是比较难,针对每个站写定向蜘蛛肯定是没有问题
    zoosucker
        11
    zoosucker  
    OP
       2014-04-29 10:18:33 +08:00
    @xh1994 我用selenium + Python做的一个爬虫,类似自己一个一个点击,这样就可以搞定Ajax的了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   999 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 20:05 · PVG 04:05 · LAX 13:05 · JFK 16:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.