麻烦问下现在 chrome 插件使用的场景, 有没有人使用做过爬虫开发呢??
1
stillsilly 301 天前
我以前做过一个 demo
魔改了一下 puppeteer-recorder ,改成八爪鱼那样,点一下弹出很多配置项的,然后把用户的点击动作和选的配置项生成 puppeteer 爬虫脚本,可以爬市面上 90%的列表页+详情页(测了 1000 个网站,就 10 来个不支持) |
2
MEIerer 301 天前
puppeteer 不能放在插件上面运行吧
@stillsilly #1 |
3
stillsilly 301 天前
@MEIerer
puppeteer 相当于一个 chrome 浏览器 怎么可能在插件上运行浏览器 插件记录用户的行为(点击、滚动等操作)和意图(要提取哪些数据,字段名叫什么)。 然后根据用户的行为和意图生成一段 puppeteer 爬虫脚本。 然后还有一个 nodejs 程序,点击插件上的“开始爬取”按钮,会把脚本代码发给 nodejs ,nodejs 会自动开启 puppeteer 并执行 puppeteer 爬虫脚本爬数据,并且把爬到的数据存起来。 我写 demo 的时候 nodejs 和 puppeteer 都在我本地,但是设计是应该放服务器上,可以同时执行很多个采集任务。 规划那个版本的项目经理后来离职了,所以只是个 demo ,后来没有做成实际应用的项目。按他的计划这个 demo 要做完善,替换掉公司的一个数据采集平台 |