V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
lbfeng
V2EX  ›  Python

爬虫放在 scrapinghub 还是会被 ban

  •  
  •   lbfeng · 2016-03-21 07:49:57 +08:00 · 3770 次点击
    这是一个创建于 3201 天前的主题,其中的信息可能已经有所发展或是发生改变。

    DOWNLOAD_DELAY 设置为 7 , COOKIES_ENABLED=False , rotate user agent 。不管用。 deploy 到 scrapinghub 上也只有前 100 个 request 可以。还有什么防 ban 的方法.

    6 条回复    2019-02-13 13:45:34 +08:00
    binux
        1
    binux  
       2016-03-21 07:53:07 +08:00
    找 scrapinghub 客服
    rebornix
        2
    rebornix  
       2016-03-21 19:56:48 +08:00
    scrapinghub 当然不管你是否被 Ban 啊,这个服务又不是管这个的。。。

    他们会告诉你 用他们的 CRAWLERA
    lbfeng
        3
    lbfeng  
    OP
       2016-03-21 21:23:59 +08:00
    @rebornix 免费的果然不好使
    rebornix
        4
    rebornix  
       2016-03-21 22:23:37 +08:00
    @lbfeng 主要还是看业务需求,他们提供 hosting ,避免被 Ban 要好好优化代码以及多 IP 。前者他们帮不了,后者还是可以做的,一门好生意。
    hanbingtel
        5
    hanbingtel  
       2016-03-25 06:31:43 +08:00
    最好丢个测试地址,大家研究下哈!! 看是否能突破。
    AceDogs
        6
    AceDogs  
       2019-02-13 13:45:34 +08:00
    你要知道 scrapinghub 和你的爬虫被封没关系, 封禁可能是对方网站的策略问题, 你还是要考虑如果不被封锁, 他们也提供了一个牛逼的代理服务叫 crawlera,这个就是专门干这事的。当然不同的网站有不同的封禁的方案, 你还是看在代码中去好好控制一下的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2843 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 14:56 · PVG 22:56 · LAX 06:56 · JFK 09:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.