V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  p2pCoder  ›  全部回复第 26 页 / 共 57 页
回复总数  1123
1 ... 22  23  24  25  26  27  28  29  30  31 ... 57  
2018-05-15 17:17:05 +08:00
回复了 hippoboy 创建的主题 问与答 分布式爬虫困惑,如何合理安排抓取/解析/储存?
@hippoboy 最核心的问题是,main 起多个协程这个操作,有没有与 main 本身实现解耦,可不可以做到新加一个网站,就可以随时起一个协程,并动态调用到,说白了
就是动态增加一个爬取网站,可不可以实现 ,直接新写 一段代码,然后,部署,就可以直接解析,存储你的 raw_page,不用修改以前的代码,也不用改变以前的部署
还有 main 本身如何实现扩展,当单机网络 io 或者磁盘 io 或者 cpu 陷入瓶颈的时候,如何提高 存储和解析的能力
2018-05-15 16:28:33 +08:00
回复了 hippoboy 创建的主题 问与答 分布式爬虫困惑,如何合理安排抓取/解析/储存?
@woscaizi 不用修改 每个节点的程序,每新加一个网站,就写一个微服务,微服务可以部署多个
可以写个路由,来根据 url,根据域名来动态映射到服务,根据 url 路径映射到具体解析的接口,然后直接去服务注册于发现中心 去获取 服务实例,调用相关借口
服务 不用 部署到每个节点,而是根据需要增加服务的数量
2018-05-15 15:35:11 +08:00
回复了 hippoboy 创建的主题 问与答 分布式爬虫困惑,如何合理安排抓取/解析/储存?
可以考虑用微服务
抓取之后的解析和存储写成微服务(根据解析和存储对资源的不同要求可以再往下拆分)
可以根据爬取的网站去映射不同的微服务,网站不同 URL 解析存储微服务下不同的方法
这样每增加一个网站,就只用新写一个服务,然后注册服务,然后,爬取的结果加上 URL 通过与服务注册与发现中心交互就可以发现相应的微服务,把网页元数据发过去 解析,存储,可扩展性就很好

我们大数据老板当时参考 spring cloud 设计这样的爬虫架构,我也折腾了一下 eureka zk consul 与 pythonjiaohu,不过最后整个爬虫项目组砍了,这些也没是实际用
2018-05-15 09:39:50 +08:00
回复了 guojing 创建的主题 日本 请问如果要申请日本技术签证要满足什么条件?
如果仅仅是 程序员 工作,日本真的不安逸,工资不高,加班还多,技术也落后,我一高中同学 大学毕业后,呆了不到一年半就回来了
当然,喜欢日本的生活节奏,生活方式也还可以
2018-05-15 08:56:16 +08:00
回复了 hansonwang99 创建的主题 程序员 RPC 框架实践之: Apache Thrift
thrift 还是序列化重于 rpc 吧
2018-05-13 20:41:55 +08:00
回复了 happmaoo 创建的主题 问与答 现在理财产品大家选什么?
我买的是 上个公司的理财产品,毕竟利率有个 13 个点
当然我比较穷,也买不了多少
现在这个公司,平台大很多,利率就低两三个点

两家的理财端都写过代码,为了修复线上问题,也看过线上 DB,开发人员也都还有联系,还是比较放心
2018-05-13 20:30:27 +08:00
回复了 e1443367 创建的主题 程序员 rfid 技术问题
去工控论坛问这个,这里专业的不多
我以前在富士康 做过物流自动化的项目管理,RFID 这东西的稳定性对于 AGV 反正是 很重要的
第一个项目,用的是 深圳的一家公司的 AGV,RFID 用的很次,每天都出问题
后台有个 自动化 产线,完全由 sk 做,AGV 就稳定了很多

如果你在华南,深圳,东莞做这些还是很多的
2018-05-10 21:37:25 +08:00
回复了 hanzichi 创建的主题 问与答 有没有转行当小学/初中老师的 v 友或者家属?
公立学校现在都是公招,有教师资格证 之后,要参加教师公招,笔试过了,还有面试
2018-05-10 17:48:52 +08:00
回复了 cobb 创建的主题 问与答 如何才能招到人?
@cobb 你肯定要筛选简历啊
v 站才多少人,招到人的概率 比 招聘网站 低得多
2018-05-10 17:41:04 +08:00
回复了 cobb 创建的主题 问与答 如何才能招到人?
招人去招聘网站
2018-05-10 17:40:28 +08:00
回复了 AugustCat 创建的主题 问与答 刚才吃口香糖不小心咽下去了,会不会黏在肠胃里面?
不会
2018-05-10 17:34:54 +08:00
回复了 sjmcefc2 创建的主题 问与答 请教,现在除了 Python , R 还有什么好用的语言?
首先,你的需求是啥
风控这种事,规则是很复杂的
如果没有白名单机制,或者你的账户 不被考虑进入 白名单,
一次触发被 ban 后,多次重复被 ban 是 大几率的
你这方向完全飘忽,不适合开始找工作
首先还是想好自己想做啥
2018-05-08 15:54:16 +08:00
回复了 mirrorpen 创建的主题 PHP 如何获取微信用户的群数据
楼主没有意识到自己要的是多核心的信息,现在唯一的解决办法就是
给个在服务端 用 浏览器 生成一个二维码,然后让用户扫,登陆后,自动爬取
这种体验是相当反人类的
而且也是相当缺德的,也只有网贷行业为了获取 风控建模这么做,毕竟产品 经理 认为 借钱的可以忍受这些
2018-05-08 14:59:56 +08:00
回复了 mirrorpen 创建的主题 PHP 如何获取微信用户的群数据
这需求很灰
其他的根本和微信小程序不在一个级别
1 ... 22  23  24  25  26  27  28  29  30  31 ... 57  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2896 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 12:56 · PVG 20:56 · LAX 05:56 · JFK 08:56
Developed with CodeLauncher
♥ Do have faith in what you're doing.