V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  tikazyq  ›  全部回复第 22 页 / 共 44 页
回复总数  867
1 ... 18  19  20  21  22  23  24  25  26  27 ... 44  
2020-08-11 14:03:43 +08:00
回复了 j0shfan 创建的主题 Python Selenium 爬网页的问题, css selector
用 puppeteer,直接 js 操作,比 selenium 简单很多
2020-08-11 14:00:54 +08:00
回复了 Hlianbobo 创建的主题 Python 编写爬虫程序有多少轮子必须自己造?
一个生产可用的爬虫程序包括抓取、解析、入库、定时任务、增量抓取、监控、日志、数据统计等模块,真正要实现一套完备稳定的解决方案真的不是写几个 requests+BeautifulSoup 这么简单。

如果你的爬虫程序只是为了临时性的采集一些数据,那么可能八爪鱼这种 to 小白工具就可以满足,或者简单的用 scrapy/requests 编写个简单爬虫即可。但如果爬虫是你的核心业务,例如搜索引擎、内容聚合、尽职调查等对爬虫有大量要求的应用场景,那么你可能需要考虑爬虫程序的规模性和可扩展性,例如定时任务、爬虫部署、任务调度、日志监控、结果去重,这些通常都需要自己实现一遍,比起写几个 xpath 抓取逻辑要麻烦很多,真的就是工程类问题了。不过好在我们有一些开源项目可以帮你处理这些繁琐的逻辑,例如我开发的轮子,分布式爬虫管理平台 Crawlab ( https://github.com/crawlab-team/crawlab ),可以运行任何语言和框架的管理平台,就是帮爬虫开发者维护管理生产可用的爬虫程序的。

当然,爬虫领域现在比较高阶的技术例如逆向、反爬,这些属于比较偏 hack 的方向,需要长期的经验累积,有兴趣可以自行百度。另外爬虫的道德法律规范也是比较重要的,玩得不好就容易进去了。

总而言之,爬虫从简单到复杂到生产可用是一个逐渐工程化的问题,需要的技术种类繁多,需要很多实战经验,不是调一些 API 就可以完成的。
2020-08-11 10:00:41 +08:00
回复了 shawngao 创建的主题 Go 编程语言 求助:使用 Go 莫名 Panic 的问题
感觉是 cast 了 nil 值变量导致的
2020-08-10 17:12:15 +08:00
回复了 fengwei23 创建的主题 程序员 如何提升自己,不包括写代码
做引体向上
2020-08-10 09:58:43 +08:00
回复了 vcw 创建的主题 分享创造 [开源] FastWeGo - Go 语言开发的微信服务快速开发框架
repo 在哪儿?
2020-08-08 11:56:41 +08:00
回复了 BlueJewel 创建的主题 Python Flask 博客收录平台开源啦,带爬虫功能
之前用过 celery,虽然方便,但问题挺多的,后来放弃了,转 go 了
2020-08-08 11:55:38 +08:00
回复了 chibupang 创建的主题 程序员 Golang 开发如何进阶?
从阅读其他项目的源码开始,顺便自荐一个自己的开源项目: https://github.com/crawlab-team/crawlab
2020-08-08 11:50:56 +08:00
回复了 az22c 创建的主题 Vue.js vue2 源码修改这 3 行,有啥用?
可读性
2020-08-07 22:10:41 +08:00
回复了 jinmingjian 创建的主题 程序员 今天开源了一个自己写的数据仓库原型
为国争光,先从开源中国开始,在 Gitee 上建个项目吧,免得被美帝哪天把 Github 给禁了

btw,看起来挺有潜力的,已 star
2020-08-07 16:30:09 +08:00
回复了 Joker123456789 创建的主题 Java Martian 框架发布了 3.0.29 版本
至于官网上的英文说明,除了一些基本的语法错误(例如冠词 a/an 不分),专业术语的错误用法(注解翻译为 comment,这应该是注释才对),显得非常不专业,总体来说官网的排版和风格还是像模像样的。另外,文档虽然内容不多,但看得出来是下了功夫的,花了一些时间精心准备的。有多少人阅读我持怀疑态度,但还是支持一下楼主的匠人精神,希望越来越进步
2020-08-07 16:20:56 +08:00
回复了 Joker123456789 创建的主题 Java Martian 框架发布了 3.0.29 版本
去年三月份的项目,到目前为止应该发展了 1 年半了,star 数 300 不到,先赞一下楼主的开源毅力和努力程度👍

想法是不错,和主流框架有一些改进和创新,但是不知道具体解决了啥核心问题。现在框架类的项目基本是处于红海,竞争非常激烈,同质化严重。当一个优秀框架稳定下来,占了头部用户的时候,新入项目如果没什么创新和突出的优势,几乎是没什么市场的。例如 java 的 web 框架,一般都是首选 SpringBoot ;爬虫我会选 Scrapy ;前端我会选 Antd ;容器我会选 Docker ;编排我会选 K8S ; CI/CD 我会选 Jekins ;等等。

所以,我建议楼主可以放弃主推你框架,而是从业务层面来解决一些实际问题。要做一个通用框架,受欢迎的关键在于性能和易用性方面有质的飞跃,否则很难有用户使用。
2020-08-07 16:06:32 +08:00
回复了 xiaotianhu 创建的主题 程序员 关于[技术相关]学习的反思
动手做一个开源项目
跟你有啥关系
2020-08-07 15:15:19 +08:00
回复了 Martox 创建的主题 职场话题 4 年前端的迷茫
4 年前端,已经是比较资深的了,可以静下心来多思考一下,多实践一下其他领域,找到自己最适合的方向发展
1 ... 18  19  20  21  22  23  24  25  26  27 ... 44  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1681 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 16:54 · PVG 00:54 · LAX 09:54 · JFK 12:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.