V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
niaoren
V2EX  ›  Python

我有个爬虫项目需要外包,有人可以接私活吗?

  •  
  •   niaoren · 2014-02-25 13:50:47 +08:00 · 13160 次点击
    这是一个创建于 3711 天前的主题,其中的信息可能已经有所发展或是发生改变。
    需求是:采集40+个网站的商品品信息入库

    有意者留下联系方式或者联系麻花腾77四7五67。
    第 1 条附言  ·  2014-03-27 17:34:37 +08:00
    人已经找到了。

    谢谢大家!

    20140327
    30 条回复    1970-01-01 08:00:00 +08:00
    sohoer
        1
    sohoer  
       2014-02-25 13:55:11 +08:00
    这是个苦力活,你这是一次性,还是增量更新?
    tntC4stl3
        2
    tntC4stl3  
       2014-02-25 14:00:10 +08:00
    如果是一次性的话还是比较简单的。
    niaoren
        3
    niaoren  
    OP
       2014-02-25 14:02:18 +08:00
    @sohoer
    @tntC4stl3
    一次性
    tonic
        4
    tonic  
       2014-02-25 14:03:05 +08:00
    khowarizmi
        5
    khowarizmi  
       2014-02-25 15:26:56 +08:00
    木有麻烦的登陆的,应该还行
    niaoren
        6
    niaoren  
    OP
       2014-02-25 16:06:06 +08:00
    @khowarizmi 木有,价格也是文本的。
    xeasy
        7
    xeasy  
       2014-02-25 16:12:48 +08:00
    40個~確實是體力活啊!
    抓過60+電影院線,兩個人抓了兩個多星期~
    yakczh
        8
    yakczh  
       2014-02-25 16:25:38 +08:00
    多少钱
    WhyLiam
        9
    WhyLiam  
       2014-02-25 17:01:06 +08:00
    爬过微博,封了我十几个小号,新浪后来把学校ip限制。说来都是泪
    bcxx
        10
    bcxx  
       2014-02-25 17:03:07 +08:00
    @tonic tony 有那么缺钱么= =
    wangxinyu
        11
    wangxinyu  
       2014-02-25 17:26:00 +08:00   ❤️ 1
    没有登录的话,很简单、抓到的信息放在那,txt内?
    niaoren
        12
    niaoren  
    OP
       2014-02-25 17:26:52 +08:00
    @yakczh 加下我QQ详谈?
    niaoren
        13
    niaoren  
    OP
       2014-02-25 17:27:48 +08:00
    @wangxinyu 存在本地,XML之类的
    tonic
        14
    tonic  
       2014-02-25 18:34:49 +08:00
    @bcxx 当然不啊! 马上想到了嘛!
    binux
        15
    binux  
       2014-02-25 18:37:27 +08:00
    @tonic 来帮我写爬虫吧。。
    tonyseek
        16
    tonyseek  
       2014-02-25 18:41:23 +08:00
    @tonic @bcxx 来用 brownant 写爬虫吧
    tonic
        17
    tonic  
       2014-02-25 18:43:13 +08:00
    @binux 并不会写...
    @tonyseek 这位资深爬虫...
    family
        18
    family  
       2014-02-25 18:44:01 +08:00 via iPhone
    10万 接了
    picasso250
        19
    picasso250  
       2014-02-25 19:08:02 +08:00
    cumt.xiaochi#gmail.com 可以谈谈
    bcxx
        20
    bcxx  
       2014-02-25 19:10:22 +08:00
    @tonyseek 专注爬虫 20 年……
    JerryKwan
        21
    JerryKwan  
       2014-02-25 19:58:12 +08:00
    没有密码验证不是通过js在客户端渲染而且没有IP限制之类的还是挺容易的。曾抓取过几个比特币信息的网站
    binux
        22
    binux  
       2014-02-25 20:03:35 +08:00
    @tonyseek

    抓取环模型,松散的模块,脚本控制抓取(web在线编写调试),带完整的任务调度更新机制

    https://www.dropbox.com/s/n6x3yb4bbuehrzh/%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE%202014-02-25%2001.51.05.png

    一起来吧,正在闭环作业中。。。
    acpp
        23
    acpp  
       2014-02-26 01:12:39 +08:00
    @bcxx 都专注那么久了啊
    fdsfsdfsdf3334
        24
    fdsfsdfsdf3334  
       2014-02-26 08:18:42 +08:00
    @binux 请问你这个编辑器是什么牌子的
    Mose
        25
    Mose  
       2014-02-26 08:31:20 +08:00
    python爬虫
    nimoqu
        26
    nimoqu  
       2014-02-26 15:42:10 +08:00
    什么要求,可以联络我972219733
    cxl008
        27
    cxl008  
       2014-02-26 17:02:01 +08:00
    5万接了
    binux
        28
    binux  
       2014-02-26 21:26:12 +08:00
    @fdsfsdfsdf3334 正在开源化的爬虫系统
    https://github.com/binux/pyspider
    konakona
        29
    konakona  
       2014-02-27 15:02:08 +08:00
    500接了(会别打死吧)
    nimoqu
        30
    nimoqu  
       2014-03-27 17:20:15 +08:00
    还做吗?怎么也没有下文了呢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3228 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:57 · PVG 19:57 · LAX 04:57 · JFK 07:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.