V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
scriptB0y
V2EX  ›  酷工作

如何成为一名爬虫工程师? (顺带招人)

  •  
  •   scriptB0y · 2017-10-18 17:43:15 +08:00 · 8188 次点击
    这是一个创建于 2596 天前的主题,其中的信息可能已经有所发展或是发生改变。
    Hi,本人目前的工作就是 V 友介绍的,入职之后非常喜欢现在这家公司。

    帮 HR 发一下招聘信息,在下文(贴到 V2EX 需要改格式我就直接放链接了)《如何成为一名爬虫工程师》中的最后有 jd。通过这篇博文你也能对我们公司有个大体了解(博文是入门篇,我比较菜,这篇文章只能代表一个应届生的水平不代表公司水平)

    https://www.kawabangga.com/posts/2277

    有什么问题可以在这里或博客评论问我,我知道的话尽量回答。
    第 1 条附言  ·  2017-10-19 13:52:52 +08:00
    地点上海
    第 2 条附言  ·  2017-10-19 18:58:03 +08:00
    公司简介: 玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

    互联网时代信息无处不在,我们日常所接触的大量信息例如微博、社交媒体网站的帖子、消费者点评、新闻、销售人员的拜访记录以及可以转换成文本的语音内容,这些都是常见的非结构化数据来源。
    根据 2011 年 IDC 的调查,非结构化数据将占未来十年所创造数据的 90%。作为一个尚未得到充分开发的信息源,非结构化数据分析可以揭示之前很难或无法确定的重要相互关系。
    非结构化数据分析能够揭示潜藏在文本当中的趋势和关联,为商业决策、研究行业趋势和热点内容分析提供有力支持。
    玻森团队致力于打造最出色的中文语义分析技术,通过自主研发的中文分词、句法分析、语义联想和实体识别技术,结合海量行业语料的不断积累,为企业和广大开发者提供简单、强大、可靠的中文语义分析云端 API。

    后端工程师 招聘人数:2 薪资面议

    岗位职责
    1. 分布式网页抓取平台的研发、完善和运维,每天支持数千万级的网页采集、清洗和分析;
    2. 产品后端 API 的开发,实现高性能、高可用及可扩展的后端代码;
    3. 线上分布式环境的自动化运维、监控、性能调优。
    职位要求
    1. 扎实的算法与数据结构功底,对新的知识和技术有强烈热情;
    2. 具有较强的分析和解决问题的能力;
    3. 拥有良好的编程习惯;
    4. 熟悉至少一门高级编程语言(例如 Python/C++/JAVA )并有实际开发的经验。
    第 3 条附言  ·  2018-01-23 16:37:32 +08:00
    此招聘依然有效。
    48 条回复    2017-10-20 17:16:56 +08:00
    Betsy
        1
    Betsy  
       2017-10-18 19:48:18 +08:00 via Android
    楼主的文章写的很棒,其实我有个很小白的问题。就是关于使用“ JavaScript 脚本动态获取网站数据”这一块有点疑惑。我在爬取 新榜 这个网站指定公众号的热门文章的时候,发现其值是通过 post 方式获取的。它同时上传了 4 个值,前两个值是不变的,后两个值貌似是随机生成的。看了你的文章之后,我觉得那俩随机数应该是通过 JavaScript 生成的,然后我想问的是,如何找到它用的是哪个 JavaScript 脚本?这样我想我就应该能获取到随机数生成规则了吧!?
    scriptB0y
        2
    scriptB0y  
    OP
       2017-10-18 20:19:29 +08:00
    @Betsy 可以设置断点跟踪进去

    https://developers.google.com/web/tools/chrome-devtools/javascript/?hl=zh-cn

    不过一般即使是客户端生成的也很难破解,实在不行可以开浏览器抓
    evanshh
        3
    evanshh  
       2017-10-18 22:13:53 +08:00
    非计算机专业毕业的,在向爬虫方向学习但是觉得自己编程基础比较薄弱,是不是对应聘影响很大呢?比如贵公司的招聘,专业是不是死门槛?
    scriptB0y
        4
    scriptB0y  
    OP
       2017-10-18 22:26:13 +08:00
    @evanshh 专业问题不是很大,不用心虚。我们 NLP 有个大神好像是化学专业的。

    计算机专业课上讲的东西很烂的,基本上还是和高中讲的应试教育那一套。不仅讲的烂还打击人的学习兴趣,自己看书有趣多了。对我来说大学自学学到的东西大约占 90%
    Betsy
        5
    Betsy  
       2017-10-18 22:28:16 +08:00 via Android
    @scriptB0y 感觉似乎找到了 js 中生成随机数的方法,但因为不懂 JavaScript 语法,有点懵逼。话说开浏览器怎么抓?那两个值每刷新一次网页就会变一次,感觉不能复制出来再使用啊!
    sangmong
        6
    sangmong  
       2017-10-18 22:43:10 +08:00
    get 和 post 真的没啥区别么...
    forestyuan
        7
    forestyuan  
       2017-10-19 08:51:38 +08:00
    很好奇爬虫工程师的待遇如何
    scriptB0y
        8
    scriptB0y  
    OP
       2017-10-19 09:02:30 +08:00 via iPhone
    @sangmong 除了语义,没有
    scriptB0y
        9
    scriptB0y  
    OP
       2017-10-19 09:04:16 +08:00 via iPhone
    @forestyuan 可以来聊聊,我认为待遇不错。不然我就不会入职不久就来拉人了。

    领导 nice,五险一金,免费零食,节日福利。
    scriptB0y
        10
    scriptB0y  
    OP
       2017-10-19 09:05:36 +08:00 via iPhone
    @Betsy 额,开浏览器是爬虫的无界面浏览器那种,那样爬虫会使用浏览器执行 js 代码。和真实用户看到的网页一样。
    yeless
        11
    yeless  
       2017-10-19 09:47:29 +08:00
    Python + Selenium + PhantomJS
    WoodenRobot
        12
    WoodenRobot  
       2017-10-19 10:41:56 +08:00   ❤️ 1
    使用无界面浏览器做爬虫推荐一下 Splinter。已经集成 Firefox 和 Chrome 的 Headless 模式。
    JackZong
        13
    JackZong  
       2017-10-19 10:43:10 +08:00
    天猫商品销量可否有办法爬到?
    Betsy
        14
    Betsy  
       2017-10-19 11:26:03 +08:00 via Android
    @scriptB0y 是指 Selenium + PhantomJS 这种组合吗?这种的话,我已经实现了,效率堪忧啊...
    scriptB0y
        15
    scriptB0y  
    OP
       2017-10-19 11:27:41 +08:00
    @Betsy 效率确实是问题。不过按照你的描述,没办法破解就只好这样了。
    Betsy
        16
    Betsy  
       2017-10-19 11:51:13 +08:00 via Android
    @scriptB0y 感觉 js 文件本身没有混淆,我再去研究研究下 js 文件中关于生成随机数这部分代码。谢谢你啦,祝你尽快招到合适的人选。
    YuuuZeee
        17
    YuuuZeee  
       2017-10-19 12:01:12 +08:00
    用过你们公司的 API,感觉挺棒的,比 BAT 的不相上下
    sangmong
        18
    sangmong  
       2017-10-19 12:17:35 +08:00
    @scriptB0y 随便百度一下都有很多区别吧...https://www.zhihu.com/question/28586791
    scriptB0y
        19
    scriptB0y  
    OP
       2017-10-19 12:24:09 +08:00
    @sangmong 可能因为你用的是百度?

    不如举例说说百度到哪些区别……
    sangmong
        20
    sangmong  
       2017-10-19 12:43:11 +08:00
    @scriptB0y 知乎的域名不认识?
    scriptB0y
        21
    scriptB0y  
    OP
       2017-10-19 12:45:58 +08:00 via iPhone
    @sangmong 认识啊 我打开一看这个答案不是符合我的说法的吗,所以才问你百度到了哪些不同
    scriptB0y
        22
    scriptB0y  
    OP
       2017-10-19 12:46:46 +08:00 via iPhone
    @YuuuZeee 谢谢好像 V2EX 的标签也是玻森数据的
    sangmong
        23
    sangmong  
       2017-10-19 12:52:51 +08:00
    @scriptB0y 所以你家服务器上的数据 get 就能修改吧
    p2pCoder
        24
    p2pCoder  
       2017-10-19 12:58:31 +08:00
    @Betsy 一般来说,除了 支付宝,淘宝 ,京东这些大型公司的登陆参数加密太复杂的,其他的都能弄,首先需要一定 js 基础,能在浏览器进行 断点跟踪,找到相应的 fuction 就行了,然后换语言重写,或者用 python 的 js 相关库执行就行。
    p2pCoder
        25
    p2pCoder  
       2017-10-19 13:09:28 +08:00
    @scriptB0y 说实话,商业公司域名不是 https,真的很影响第一映像
    scriptB0y
        26
    scriptB0y  
    OP
       2017-10-19 13:12:14 +08:00
    @sangmong 参考 #8 楼,这属于语义。
    scriptB0y
        27
    scriptB0y  
    OP
       2017-10-19 13:14:14 +08:00
    @p2pCoder

    我们的域名应该都是 https 的啊,内部的 sentry 都是 https 的。

    https://bosonnlp.com/
    https://www.riskstorm.com
    wisej
        28
    wisej  
       2017-10-19 13:26:22 +08:00 via Android
    应届毕业生收么
    Betsy
        29
    Betsy  
       2017-10-19 13:35:40 +08:00 via Android
    @p2pCoder 目前个人的确不会 JavaScript,看来得去恶补下这部分才行。谢啦。
    p2pCoder
        30
    p2pCoder  
       2017-10-19 13:36:58 +08:00
    @scriptB0y 可能配置有问题,我第一次从百度进去不是 https
    scriptB0y
        31
    scriptB0y  
    OP
       2017-10-19 13:47:14 +08:00
    @wisej 收 (我就是)
    scriptB0y
        32
    scriptB0y  
    OP
       2017-10-19 13:48:23 +08:00
    @p2pCoder 嗯没有开 301 跳转。不过百度好坑,google 都是有先进 https 结果的
    weakish
        33
    weakish  
       2017-10-19 13:49:09 +08:00
    现在推广都一推二了啊~ location, salary 这 JD ...
    torment5524
        34
    torment5524  
       2017-10-19 14:04:51 +08:00
    话说现在 30 多了,08 年在软件公司工作,12 年进了个国企,干了 5 年干不下去了。平时都是给朋友做些简单软件,前阵子刚用 java 给朋友做过一个 jd 的自动登陆下单,进公司还有希望么。。现在想跳出来,不知道该去哪
    scriptB0y
        35
    scriptB0y  
    OP
       2017-10-19 18:57:29 +08:00
    @torment5524 可以来我们公司聊聊
    evanshh
        36
    evanshh  
       2017-10-19 19:09:56 +08:00
    @scriptB0y 稳!
    palx
        37
    palx  
       2017-10-19 19:39:50 +08:00
    感谢分享,看这篇博文突然对爬虫工程师很感兴趣
    7gong
        38
    7gong  
       2017-10-19 22:10:01 +08:00 via iPhone
    @scriptB0y 有付费订制需求,但贵公司不接受...捉急
    leeyiw
        39
    leeyiw  
       2017-10-20 00:46:56 +08:00
    帖子这么火,搭车招聘爬虫防护工程师,C/C++,有意私聊,base 杭州
    gouchaoer
        40
    gouchaoer  
       2017-10-20 01:01:49 +08:00 via Android
    @leeyiw 你们业务用 c 艹写的?自己造轮子会死的很惨的
    scriptB0y
        41
    scriptB0y  
    OP
       2017-10-20 09:38:06 +08:00
    @7gong 额 这个我也帮不上忙,可以联系我们销售……
    macg0406
        42
    macg0406  
       2017-10-20 10:39:13 +08:00
    做某块类似于爬虫工作时遇到自定义字形、自定义编码的问题,发现网页上面也可以,@font-face + WOFF,不遵循现有编码,也会给爬虫带来不小的麻烦。不过现在还没见到有人这样用。
    scriptB0y
        43
    scriptB0y  
    OP
       2017-10-20 11:10:21 +08:00
    @macg0406 是个思路。不过防爬虫就得考虑 SEO 误伤的问题。这个思路估计对 SEO 误伤的概率很大吧。
    macg0406
        44
    macg0406  
       2017-10-20 12:35:21 +08:00
    @scriptB0y 可以像指定字体一样指定内容是否用自定义编码,如果希望被搜索到,就用正常编码,不希望被爬的,就用自定义编码。
    xuqiccr
        45
    xuqiccr  
       2017-10-20 15:19:55 +08:00 via iPhone
    招实习生吗大佬
    scriptB0y
        46
    scriptB0y  
    OP
       2017-10-20 15:33:20 +08:00
    @xuqiccr 招,发简历吧。
    blackMountain
        47
    blackMountain  
       2017-10-20 17:11:00 +08:00
    招前端吗大佬
    scriptB0y
        48
    scriptB0y  
    OP
       2017-10-20 17:16:56 +08:00
    @blackMountain 暂时不招前端 :doge:
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3155 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 13:51 · PVG 21:51 · LAX 05:51 · JFK 08:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.