V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
fank99
V2EX  ›  Python

请教各位 Python 爬虫工程师有什么好的转职方向吗?

  •  2
     
  •   fank99 · 2019-05-28 14:12:26 +08:00 · 6196 次点击
    这是一个创建于 2007 天前的主题,其中的信息可能已经有所发展或是发生改变。
    小弟刚通过自学 python 找到一份爬虫工作,目前做了一个月了。
    这一个月在摸清了工作后,自己写了简单的“框架”,每天就往里面填不同的 xpath 解析网页
    要不就是用 scrapy,反正也是往里面塞 xpath,感觉如果继续下去对个人的技术水平提高也不大
    而且爬虫也有一定的法律风险,未来想跳转到其他方向。

    想学习一些新的技能,想请教各位大佬,应该学习一些什么技能比较好呢?

    目前我的想法是:
    1、python 后端的话,似乎是可以的,自己之前也写过一两个小网站,但市场需求似乎不是很多
    2、大数据开发,这块并不十分了解,希望有大佬科普。
    3、机器学习 唯一接触到的就是用 cnn 识别了验证码搭了个服务返回识别后的验证码,个人也比较感兴趣,但因为对数学和学历有较高的要求,而我是个渣三本不说,高数还挂过,不确定自己是否有能力
    4、学习其他语言 java、Golang,做 web 后端。我明白只掌握 python 一门语言是不够的,但似乎学习一门新语言的学习曲线更陡峭,比较担心因此找不到工作或者不能在短期( 6-12 个月)之内换工作,而且我自己更喜欢 python 一些。
    5、继续做爬虫。看了下招聘网站,高端的爬虫还是要求很多的,做起来也比我现在更有意思一些,但仍然存在法律和就业面狭窄的风险

    写的有点碎,感谢各位看完,排名分先后,请大家用力滋我。感谢
    56 条回复    2019-06-14 15:44:08 +08:00
    lasuar
        1
    lasuar  
       2019-05-28 14:22:35 +08:00   ❤️ 1
    既然你喜欢 Python,那何不做个高级 Pyer 呢;
    如果你所在的城市有不少的 python 岗,那就把 django 玩透,再熟悉一下 mysql/redis/mongo,再看点架构设计文档找后端岗不是轻松吗。
    rogwan
        2
    rogwan  
       2019-05-28 14:26:14 +08:00 via Android   ❤️ 1
    爬虫+数据分析的组合,还是前景广阔的。光爬回来,不会分析数据,也还欠缺了点。
    janxin
        3
    janxin  
       2019-05-28 14:28:21 +08:00   ❤️ 1
    大数据工程师呀
    fank99
        4
    fank99  
    OP
       2019-05-28 14:33:53 +08:00
    @lasuar 谢谢,请问架构设计具体指什么呢?是一套服务需要用到的各种技术吗?

    @rogwan
    @janxin
    谢谢,请问大数据开发和数据分析是一回事吗?
    wersonliu9527
        5
    wersonliu9527  
       2019-05-28 14:38:14 +08:00   ❤️ 2
    我也是自学了,入职爬虫一年出头,中途也去面了几次后端。基本上都问 mysql 优化问题,大量数据时怎么处理。我说了些理论上的查表优化,接口数据缓存。基本上没下文。还在继续写 xpath 0.0
    andylsr
        6
    andylsr  
       2019-05-28 14:39:06 +08:00 via Android   ❤️ 1
    把爬虫做成一个可扩展的系统呗~一个后台管理全部爬虫任务,基本功能:添加,暂停,删除爬虫,爬虫节点动态扩展,其中会涉及集群操作的很多知识~~
    SleipniR
        7
    SleipniR  
       2019-05-28 14:39:36 +08:00   ❤️ 2
    对 Python 开发来说,大数据现在一般指 Hadoop/HDFS/ElasticSearch/Kafka/Spark 这个系列的技能,数据分析指 Nympy/Scipy/Pandas/Matploitlib 这个系列的技能。
    fank99
        8
    fank99  
    OP
       2019-05-28 14:42:58 +08:00
    fank99
        9
    fank99  
    OP
       2019-05-28 14:45:29 +08:00
    @SleipniR 谢谢,您提到的对我非常有帮助。事实上我也在用 ElasticSearch 将爬到的数据进行搜索
    fairyto2
        10
    fairyto2  
       2019-05-28 14:45:40 +08:00
    @SleipniR 数据分析更重要的是数学建模能力吧,那些只是工具,我会用 sql 会用 excel 也一样能完成任务,但是不会数学不行
    QQ2171775959
        11
    QQ2171775959  
       2019-05-28 14:48:11 +08:00
    这个是需要一个多 IP 和站群服务器来支撑的,那样子的话优化才能起到作用。
    binux
        12
    binux  
       2019-05-28 14:55:20 +08:00 via iPhone
    去百度,google
    tt67wq
        13
    tt67wq  
       2019-05-28 14:56:02 +08:00
    成为一个光荣的运维狗
    BadReese
        14
    BadReese  
       2019-05-28 15:06:40 +08:00
    转近战猎人
    araraloren
        15
    araraloren  
       2019-05-28 15:15:29 +08:00
    转职可以考虑大数据师,技能多,全是 AOE 伤害,就是有点耗蓝
    abb1513
        16
    abb1513  
       2019-05-28 15:32:07 +08:00
    成为一个光荣的运维狗 +1
    Takamine
        17
    Takamine  
       2019-05-28 15:35:05 +08:00
    要么继续走爬虫到 BI 的路,要么转 Web 吧。
    我比较推荐前者,诶嘿嘿诶嘿嘿。:rocket:
    DAPTX4869
        18
    DAPTX4869  
       2019-05-28 15:40:36 +08:00
    成为一个光荣的运维狗 +2
    tikazyq
        19
    tikazyq  
       2019-05-28 15:41:43 +08:00
    想要节省爬虫的编写时间,可以参考一下我的开源爬虫平台 Crawlab, https: // github.com/ tikazyq/crawlab

    Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。

    最近开发的可配置爬虫正好解决你配置爬虫的问题,1-3 分钟编写好一个可运行的爬虫。

    [我是如何在 3 分钟内开发完一个爬虫的]( https: // juejin.im /post/5ceb4342f265da1bc8540660)
    qq976739120
        20
    qq976739120  
       2019-05-28 15:50:10 +08:00
    趁年轻,推荐转 java 或者前端 ----杭州 pyer 的忠告
    collector
        21
    collector  
       2019-05-28 16:01:06 +08:00
    我也是学习的 python,身边很多人都在用 python 做一些简单的数据分析,根据和他们的交流,他们工作的技术含量不是特别的高,但是目前招聘有提高要求的趋势,web 方面的需求不大,有个在 P2P 做过的,做 flask+数据分析来展示数据的平台,其他的都是不算太难的处理表格的,爬虫的说实话,也没有多少人在做,人在上海,希望和楼主多交流,python 市场还是有点小
    collector
        22
    collector  
       2019-05-28 16:02:34 +08:00
    @qq976739120 前端现在不是培训班批量生产吗?请问 python 在杭州的行情如何?
    qq976739120
        23
    qq976739120  
       2019-05-28 16:04:48 +08:00
    @collector 我刚从上海来....来之前也觉得上海市场小,到了杭州发现上海好的多的多
    collector
        24
    collector  
       2019-05-28 16:10:28 +08:00
    @qq976739120 我曾经想过要去杭州发展呢。。。看来 python 做主力还是差点啊,快要换工作了,压力好大
    la2la
        25
    la2la  
       2019-05-28 16:16:44 +08:00
    跟我现在的感觉一模一样,爬虫做多了没意思。简单的网站就是体力活,复杂的验证码涉及到机器学习搞不了。目前我打算 学习一下 java,走大数据路线,不知道是否可行。数据分析我也尝试过,发现知道如何建模,比如何使用 pandas 等这些工具更重要,有点烦
    lasuar
        26
    lasuar  
       2019-05-28 16:30:52 +08:00
    collector
        27
    collector  
       2019-05-28 16:32:13 +08:00
    @la2la 涉及建模就贴近机器学习那边了,对算法和数学要求就高了,间接的对学历要求就高了。。我也打算往大数据发展的。。
    ksedz
        28
    ksedz  
       2019-05-28 16:36:02 +08:00
    不建议转 web

    可以考虑大数据、机器学习、转 golang
    有机会的话转 Java、C++ 也行
    tikazyq
        29
    tikazyq  
       2019-05-28 16:39:49 +08:00
    @collector 爬虫可以做很多事情,但感觉做得深的话会转算法和后端
    la2la
        30
    la2la  
       2019-05-28 16:40:07 +08:00
    @collector 有没有什么学习路线什么的可以推荐一下
    collector
        31
    collector  
       2019-05-28 16:49:51 +08:00
    @tikazyq 反爬手段越来越多也越来越高级,做到后面必然涉及到机器学习了,而且爬虫只是获取数据的方式,有了数据又要分析,这又要到数据分析了,所以最后爬虫还是要转的,我是这样觉得的
    collector
        32
    collector  
       2019-05-28 16:50:51 +08:00
    @la2la 我没接触过大数据,java 也不懂,只是各种公众号存了很多的资料什么的,怎么开始我也很迷茫。。。
    NaVient
        33
    NaVient  
       2019-05-28 17:02:05 +08:00
    欢迎成为运维开发
    fank99
        34
    fank99  
    OP
       2019-05-28 17:35:29 +08:00
    @qq976739120 谢谢,也考虑过 java。不过是不是 python 转 Golang 比 java 更顺滑一些?
    @collector 人在成都,上海 Python web 应该比成都好找很多吧?
    @la2la 同烦,苦恼
    @lasuar 谢谢
    @ksedz 可以具体说下不建议做 web 的原因吗?
    fank99
        35
    fank99  
    OP
       2019-05-28 17:36:43 +08:00
    @NaVient
    @tt67wq
    @DAPTX4869
    @abb1513
    感觉运维的学习路线更陡峭,环境是平常接触不到的东西,不知道是不是这样的?
    NaVient
        36
    NaVient  
       2019-05-28 17:50:09 +08:00
    @fank99 #35 之前与你有一样的困惑,现在转做 DevOps 其实大多数时候还是开发,前后端一把梭,只是偏向于内部运维系统,在开发这种系统的时候慢慢学运维就会有感觉了。
    fank99
        37
    fank99  
    OP
       2019-05-28 19:01:59 +08:00
    @NaVient 能提供下你的学习路线之类的吗?
    SpiderXiantang
        38
    SpiderXiantang  
       2019-05-28 19:14:44 +08:00
    Java 后端
    SpiderXiantang
        39
    SpiderXiantang  
       2019-05-28 19:15:04 +08:00
    看我 ID 现在在上海做后端 。。。。
    lucays
        40
    lucays  
       2019-05-28 19:45:40 +08:00 via Android
    我工作一年半主要写写 scrapy, 其他的 django, flask 都做过还做过一点自然语言处理调包的项目…感觉不行爬虫太无聊,骑驴找马找了一个月才成功转了 web 后端…个人感觉自己还是比较失败的😔我还在上海…还找了这么久,boss 和拉勾很多公司一点都不靠谱
    sazima
        41
    sazima  
       2019-05-28 21:42:09 +08:00
    python 后端一年多, 目前处于一种迷茫的状态.
    collector
        42
    collector  
       2019-05-28 21:58:41 +08:00
    @fank99 根据我自身的找工作情况和身边人找工作的反响,web 即便在上海需求也是没那么高的
    stallman
        43
    stallman  
       2019-05-28 23:30:30 +08:00 via Android
    做爬虫不是长久之计,如果真想往这方面的话可以考虑渗透,网络攻防。做后台感觉 python 在这方面竟争力比 java 差太远了,数据分析倒是没关注。而且现在 python 找工作市场比较饱和,要求变得越来越高了,来自一个做了一年爬虫一年 web 最近找工作的感受🤣
    wbf1013
        44
    wbf1013  
       2019-05-28 23:56:18 +08:00 via iPhone
    没人推荐 .net 吗?滑稽
    luzihang
        45
    luzihang  
       2019-05-29 09:25:17 +08:00
    所以 Python 转大数据工程师,是什么路径?先学 Java 吗
    fank99
        46
    fank99  
    OP
       2019-05-29 10:46:20 +08:00
    @stallman 我也觉得渗透、安全这块的话,python 还是有优势的,就找工作而言。老哥找 web 工作需要哪些技能呢
    fank99
        47
    fank99  
    OP
       2019-05-29 10:52:28 +08:00
    @sazima 羡慕啊,做后端正是我想的
    fank99
        48
    fank99  
    OP
       2019-05-29 10:53:08 +08:00
    @collector 我算是懂了,python 需求在全国都算少的。
    fang7781111
        49
    fang7781111  
       2019-05-29 11:30:35 +08:00
    安卓逆向开发可以做比
    datou
        50
    datou  
       2019-05-29 15:56:56 +08:00
    口才好的话去培训班当讲师
    fank99
        51
    fank99  
    OP
       2019-05-29 16:23:39 +08:00
    @datou 然后让更多人来入坑吗 =。=
    Untamed
        52
    Untamed  
       2019-05-30 09:31:54 +08:00
    我靠我现在也在自学 python...本来准备转数据分析的,但是感觉技术含量好低,想着先入行再调整方向...看了大家说的我都有点慌...python 被培训班炒的太过了
    fank99
        53
    fank99  
    OP
       2019-05-31 10:11:44 +08:00
    @Untamed 楼上大佬不是说数据分析很难得吗。。怎么还技术含量低了啊。
    (入行最简单的还是爬虫)
    bnbdfg
        54
    bnbdfg  
       2019-05-31 17:37:29 +08:00
    @Untamed 数据分析技术含量还低吗?看来你是天选之人啊
    Untamed
        55
    Untamed  
       2019-06-04 11:24:43 +08:00
    @bnbdfg 不是,因为有些初级数据分析岗只用 EXCEL 跟 SQL 都行...而且干的都是清洗数据的活,我不是说数据分析都没技术,只是说上下限差距比较大...高级的数据挖掘不也要做算法跟机器学习么
    @fank99
    songkai
        56
    songkai  
       2019-06-14 15:44:08 +08:00
    python 被国内培训班炒火了,实际上 python 岗位也不多,想要长久还是学学 java、C 吧,做算法是最好的选择。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   940 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:22 · PVG 06:22 · LAX 14:22 · JFK 17:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.