工作 7 年,base 上海。
4 年前,就开始了做独立开发者的尝试。
英语流利,有管理和被管理经验,懂产品。
技术栈比较全面,开发工作只看数据相关/周边。
- 大数据平台的搭建,
- 机器学习/ NLP 相关算法的研究和产品落地。暂不考虑 CV 方向
- 数据仓库,
- 爬虫,
- 推荐系统。(有一些实验,但没在高流量的生产环境做过)
做过的一些项目:
- 基于 zookeeper + Kafka,开发了一套针对中小公司的流式计算引擎,处理几百 G 但纬度高的“大数据”。
- 命名实体识别与相似度检测系统。NLP 文本分析 + 结合业务背景数据,多个维度构造相似度打分模型。
- 分布式垂直爬虫框架,国内主流网站,基本都抓取过。主要优化:集群抓取速率、以月为单位持续运行的稳定性、反-反爬虫方案等。
- 离线的反爬虫检测系统。通过分析 nginx access 日志,分析爬虫行为。比如,css 访问的比例。
- 图片验证码识别算法。Google Tesseract,深度学习的 CNN 模型,做过多个版本。
编程语言,以 python / js 为主。
contact: jack000.yang at gmail dot com
可邮件您的微信,我们微信聊。