有个新需求很头大来这求教。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 1960 天前的主题，其中的信息可能已经有所发展或是发生改变。

任意添加网站一般是论坛，爬虫每天根据关键词爬取帖子（整个页面应该也行）。
问题:1 不同网站如何爬?目前想的是手动添加内容和分页的 xpath （实际用起来貌似也会有问题）。
2.帖子的日期如何获取
3.如何不重复爬取。

这种需求的难度：低中高？

11 条回复 • 2018-12-15 10:23:37 +08:00

Bryan0Z

2018-12-14 16:27:47 +08:00 via Android

一个爬虫爬遍任意网站？有点厉害

wly19960911

2018-12-14 16:32:17 +08:00

是超高

jinksw

2018-12-14 16:49:40 +08:00

添加网站的时候让他给你然后你挨个添加规则分页规则内容规则日期规则唯一性规则

zarte

2018-12-14 16:59:15 +08:00

@jinksw 嗯，先按这个弄

a62527776a

2018-12-14 17:09:01 +08:00

那以后每天的工作就是研究各个网站的规则了 →。→

maplelin

2018-12-14 17:40:04 +08:00

这是让你去造高达吧

Kinnice

2018-12-14 17:49:24 +08:00 via Android

爬虫框架 5k，规则 1k 一条可持续收入 /滑稽

limuyan44

2018-12-14 17:50:45 +08:00 via Android

ai 啊，添加一条数据后给你发短信，你把代码写好在放上去，最重要的是要按网址收费。。

zarte

2018-12-14 19:07:35 +08:00

@a62527776a 不愁没工时了(｀・ω・´)

zarte

2018-12-14 19:08:36 +08:00

@maplelin 能做出来的话可以自己拿去卖哈哈￣ω￣=

adrianyoung

2018-12-15 10:23:37 +08:00 via Android

url 去重做缓存检查