1
airyland 2018-06-14 17:26:02 +08:00 1
可能没有出来的产品。我实施了一点,要保证安全性,屏蔽恶意客户端,任务通过服务端来协调分发,客户端任务通过定期轮循来获取,有抓取需求的可以向服务端直接发布 n 个任务,进入服务端队列后,通过 webhook 来接收相应 url 数据,数据的抓取速度就取决于有多少客户端了,另外对于不同站要有不同策略。另外基本原则是:只抓取公开数据。
|
2
rainsun 2018-06-14 17:49:43 +08:00
怎么验证爬回来的东西是正确的呢
|
3
cy97cool OP @rainsun 参考高考阅卷? 初期都没权重的时候两个客户端执行相同的爬取,有冲突则引入第三个
后期积累起信用后 高权重用户的结果直接采信,以人工检查、举报机制辅助 |
4
ctsed 2018-06-14 18:00:49 +08:00
让你的去中心化爬虫去爬去中心化网络的快照
|
5
Foolt 2018-06-14 18:04:52 +08:00
我打开帖子看,这帖子没有创新,歪歪斜斜的每段上都写着“去中心和”几个字。我横竖看不爽,仔细看了半晌,才从字缝里看出字来,满本都写着三个字是“ P2P ”!
去中心化存储,那就是 P2P,有人了种,下载的人越多可供上传的人就越多,可用的“服务器”就越多。 |
6
Foolt 2018-06-14 18:06:57 +08:00
#5 更正,把“去中心化”打成了“去中心和”。不过不影响表述,楼主你说的就是 P2P,已经非常成熟的技术,国人电脑下片都在用,现在肯定也有 STEAM 的种子,不过可能不够全,你想要全就自己做种好了。
|
7
cy97cool OP @Foolt 问题不在 p2p 而在于安全保障、任务调度、可持续性
安全保障:执行别人的代码怎么保证人家的代码没有恶意 BOINC 可以通过研究机构声誉来实现 任务调度:如果没有中心化的 tracker 如何做调度 可持续性:现在的 Anti404 要求至少要有一个人及时保存了页面并愿意分享出来,如果能实现一个完整的平台来自动化地做这个事情,并发币甚至上交易所来保证整个社区的活跃性 就算有 steam 的种子也需要有发布组来发布,发布了种子还要有人愿意来保种,如果能把发布过程也自动化(自动爬取发布),并且用奖励机制保证冷门种子的可访问性。。。 |
8
Foolt 2018-06-14 19:05:43 +08:00
@cy97cool
你说的就是 P2P 其中一种实现 —— Private Tracker,根据用户贡献奖励积分,贡献可以是上行和做种。对 PT 来说,自动做种也不是什么新鲜事,很多大学都有这种东西。 |
9
cy97cool OP |
10
wingyiu 2018-06-15 10:42:45 +08:00
不上区块链吗?
|