V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
maguowei
V2EX  ›  分享创造

从拉勾上扒的互联网公司基本信息数据

  •  
  •   maguowei ·
    maguowei · 2016-02-27 11:12:33 +08:00 · 8646 次点击
    这是一个创建于 3222 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2016-02-27 22:49:10 +08:00

    单条数据格式:

    > db.company.findOne({'short_name': '拉勾网'})
    {
        "_id" : ObjectId("56cf365a8883cd0076a49202"),
        "history" : [
            {
                "url" : "",
                "date" : "2015 Aug",
                "day" : "11",
                "title" : "拉勾移动 App 上线",
                "content" : "拉勾推出了移动版 App ,可以随时在手机上查看好机会,同时跟踪你的简历机会。",
                "type" : "其他"
            },...
    
        ],
        "href" : "http://www.lagou.com",
        "short_name" : "拉勾网",
        "company_word" : "帮用户找到满意的工作",
        "basic" : {
            "process" : "B 轮",
            "type" : "企业服务,招聘",
            "address" : "北京",
            "number" : "150-500 人"
        },
        "identification" : 1,
        "logo" : "http://www.lagou.com/image1/M00/25/D4/Cgo8PFVS2SeAWgf8AACUSzhxomw100.png",
        "company_img" : [
            "http://www.lagou.com/image1/M00/41/AE/Cgo8PFXJZk-AbPT4AACmh1YI1hM381.jpg",...
        ],
        "name" : "北京拉勾网络技术有限公司",
        "lagou_url" : "http://www.lagou.com/gongsi/147.html",
        "manager_list" : [
            {
                "content" : "2006 年毕业于北京邮电大学工业设计专业,随后加入腾讯 CDC ,参与过腾讯公司 07 版 QQ 的研发,后供职于百度等顶级互联网企业。马德龙擅长在产品的用户体验和技术实现之间寻找平衡点,目前在公司里负责产品和团队管理。",
                "weibo" : "http://weibo.com/banlon",
                "title" : "CEO",
                "photo" : "http://www.lagou.com/image2/M00/04/B4/CgpzWlXyoUiAVKFRAAOb73RQbg4170.jpg",
                "name" : "马德龙"
            },
            {
                "content" : "2005 年毕业于武汉理工大学,曾就职于腾讯、搜狐等多家顶级知名互联网企业,拥有丰富的互联网产品推广经验,曾参与创立了 3W 传媒,并担任 CEO 。她精通市场和运营,目前在拉勾网主要负责市场推广。",
                "weibo" : "http://weibo.com/10110806",
                "title" : "CMO",
                "photo" : "http://www.lagou.com/image1/M00/00/BA/Cgo8PFTUYDaAE-0dAAAVAxML288111.jpg",
                "name" : "鲍艾乐"
            },
            {
                "content" : "2007 年于北京大学硕士毕业后,先后供职于腾讯集团、平安证券和华夏基金等顶级互联网公司和金融机构,擅长互联网公司的战略分析与制定。",
                "weibo" : "http://weibo.com/xddpku",
                "title" : "董事长",
                "photo" : "http://www.lagou.com/image1/M00/00/BA/CgYXBlTUYDaAAdrjAAESyIsBsj4122.png",
                "name" : "许单单"
            }
        ],
        "address" : [
            "北京市海淀区海淀大街 34 号海置创投大厦 4 层",
            "海淀西大街 36 号海淀图书城昊海楼 608 室",
            "深圳市南山区深圳市软件产业基地 4 栋-c 座 10 楼",
            "黄浦区瑞金南路 1 号海兴广场 18 楼 E 座",
            "广州市天河区富力·公园 28 B2 栋 2101"
        ],
        "company_intro_text" : "拉勾网是专注于互联网行业招聘的网站。|拉勾网拥有优质互联网资源,收集和发布圈内招聘信息,为求职者提供人性化、个性化的信息服务......"
    }
    
    33 条回复    2016-08-17 10:58:28 +08:00
    iyannik0215
        1
    iyannik0215  
       2016-02-27 11:45:49 +08:00
    你是用什么语言扒的..
    maguowei
        2
    maguowei  
    OP
       2016-02-27 11:52:35 +08:00
    @iyannik0215 Python3
    iyannik0215
        3
    iyannik0215  
       2016-02-27 11:56:54 +08:00
    @maguowei 好吧,没接触过 Python ,不过想拿 Golang 做做扒数据的想法,但是不会正则好尴尬。
    maguowei
        4
    maguowei  
    OP
       2016-02-27 12:01:48 +08:00
    Ouyangan
        5
    Ouyangan  
       2016-02-27 12:16:23 +08:00
    说说反爬虫经验吧,前辈
    GhostEX
        6
    GhostEX  
       2016-02-27 12:28:12 +08:00
    感觉这些信息没什么用啊,另求反爬经验
    HanSonJ
        7
    HanSonJ  
       2016-02-27 12:29:10 +08:00
    想问问老前辈拉勾上有反爬虫机制吗?
    maguowei
        8
    maguowei  
    OP
       2016-02-27 12:31:02 +08:00
    @HanSonJ 貌似没啥反扒机制, 我爬的时候只是简单粗暴
    maguowei
        9
    maguowei  
    OP
       2016-02-27 12:31:17 +08:00
    @Ouyangan 爬虫的最高境界就是模拟真实人的行为,反扒措施当然就是去甄别那些不像人的行为。但是只要是开放的数据,反扒只能做到无限度的提升爬取成本,而无法做到杜绝。
    maguowei
        10
    maguowei  
    OP
       2016-02-27 12:33:27 +08:00
    @HanSonJ 我之前看到一个很阴险的,就是明明判断出来你时爬虫了,但是并不是禁止,而是给你掺上假的数据。这个太损了 哈哈哈
    maguowei
        11
    maguowei  
    OP
       2016-02-27 12:41:07 +08:00
    @GhostEX json 文件里的数据更全一些,我觉得有很多有用的信息,比如来统计一下互联网公司地域、行业分布,估算当前全国的从业人数,多少公司顺利走到了 x 轮,都说上海没啥互联网公司,你可以实际 count 一下有多少。
    timqian
        12
    timqian  
       2016-02-27 13:02:54 +08:00
    感觉可以定期爬一组新的数据,然后看看公司的存活状况。
    用数据来验证 **互联网行业泡沫性**
    est
        13
    est  
       2016-02-27 14:26:46 +08:00
    @maguowei 我之前提到过这个。的确太损了。

    有意思。 11M 的 csv 收了。多谢。
    est
        14
    est  
       2016-02-27 14:45:58 +08:00   ❤️ 4
    粗略统计了一下:


    $ python -c "for l in __import__('csv').reader(open('1.csv')): print l[3].decode('utf8', 'ignore')[:2].encode('utf8')" | sort | uniq -c | sort -nr

    27568 北京
    14449 上海
    10772 深圳
    6847 广州
    5065 杭州
    2986 成都
    1770 武汉
    1677 南京
    1120 厦门
    1068 西安
    1022 长沙
    971 苏州
    828 郑州
    805 重庆
    763 天津
    600 青岛


    北上深广杭 你们赢了
    est
        15
    est  
       2016-02-27 14:47:31 +08:00   ❤️ 2
    行业分布

    $ python -c "for l in __import__('csv').reader(open('1.csv')): print '\n'.join(x.strip() for x in l[4].split(','))" | sort | uniq -c | sort -nr


    41923 移动互联网
    19409 电子商务
    9790 O2O
    9185 金融
    9123 企业服务
    6912 其他
    5085 数据服务
    4845 教育
    4781 文化娱乐
    3876 硬件
    3515 生活服务
    3421 医疗健康
    3277 广告营销
    3228 游戏
    2498 社交网络
    1418 旅游
    1165 信息安全
    est
        16
    est  
       2016-02-27 14:49:09 +08:00
    资金情况


    ~/lq_dev/gist/lagou-stats[master*]$ python -c "for l in __import__('csv').reader(open('1.csv')): print l[6]" | sort | uniq -c | sort -nr

    33994 未融资
    18825 不需要融资
    15187 天使轮
    8297 A 轮
    5033 上市公司
    2615 B 轮
    1355 D 轮及以上
    1031 C 轮
    est
        17
    est  
       2016-02-27 14:50:21 +08:00
    人数

    $ python -c "for l in __import__('csv').reader(open('1.csv')): print l[5]" | sort | uniq -c | sort -nr

    32769 15-50 人
    19616 50-150 人
    14808 少于 15 人
    10870 150-500 人
    4640 500-2000 人
    3633 2000 人以上

    看来是小微企业为主。
    abelyao
        18
    abelyao  
       2016-02-27 15:15:30 +08:00 via iPhone
    像 @est 一样统计出结果就有趣多了。
    NovemberEleven
        19
    NovemberEleven  
       2016-02-27 18:00:27 +08:00
    @est 溜啊
    111111111111
        20
    111111111111  
       2016-02-27 18:18:02 +08:00 via iPhone
    @est 学习了
    dong3580
        21
    dong3580  
       2016-02-27 19:50:29 +08:00
    @maguowei
    我目前需要达到的境界是能整出谷歌搜索结果页面。。。楼主可以拔出么?
    Exin
        22
    Exin  
       2016-02-27 20:20:07 +08:00
    面白い!
    Garantion
        23
    Garantion  
       2016-02-27 21:10:01 +08:00
    @est 学习了!!!
    des
        24
    des  
       2016-02-28 14:18:47 +08:00
    相比创业公司还是北上广深多
    rhea1108
        25
    rhea1108  
       2016-02-28 15:45:23 +08:00
    这么一看,大西北地区有点可怜 23333
    iyannik0215
        26
    iyannik0215  
       2016-02-29 00:31:20 +08:00
    @maguowei 已在使用,并尝试抓取简单的数据了~,感谢。
    irainy
        27
    irainy  
       2016-03-02 00:43:32 +08:00
    我从全部职位入口去抓,为什么只有 5000 条?
    irainy
        28
    irainy  
       2016-03-02 11:49:13 +08:00
    @irainy 看了爬虫代码,那个入口现在已经被封了,估计是被发现了
    maguowei
        29
    maguowei  
    OP
       2016-03-02 14:18:04 +08:00
    @irainy 应该不会吧

    我刚才试了一下我之前那个还是正常的啊

    irainy
        30
    irainy  
       2016-03-02 16:01:41 +08:00
    @maguowei

    ```
    >>> r = req.get("http://www.lagou.com/gongsi/{}.html".format(1), allow_redirects=False)
    >>> r.status_code
    302
    ```
    是这个入口吧?
    maguowei
        31
    maguowei  
    OP
       2016-03-02 16:27:26 +08:00   ❤️ 1
    @irainy 是啊
    irainy
        32
    irainy  
       2016-03-02 17:02:53 +08:00
    @maguowei My Bug! :P
    RangerWolf
        33
    RangerWolf  
       2016-08-17 10:58:28 +08:00
    楼主 貌似你只把爬下来的数据放上来了,爬虫代码能共享出来吗? 多谢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4160 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:11 · PVG 12:11 · LAX 20:11 · JFK 23:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.