V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  nicoljiang  ›  全部回复第 51 页 / 共 62 页
回复总数  1231
1 ... 47  48  49  50  51  52  53  54  55  56 ... 62  
你自己用了吗?虽然依然有槽点,但总体我感觉很满意,我不想被代表。
@NX15 我记得客服之前跟我也说过不行的,你这个是不是有点看人品了。
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@JungleHi 但我的 url 其实很干净,只有 0-1 个参数。
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@okjb 当然不是。。。。
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@JungleHi 哦 还没弄过 search console,去研究研究
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@t6attack 这个有点吓人啊。。。ISP 内容监控的爬虫???
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@zarte
@leir
就普通的内容站,实际上之前并没有这么多,这几天翻了十倍,有点扛不住。
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@SukkaW 哦哦 好像这是个好办法,我看看怎么试一下。
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@vtwoextb 其实相比被爬数据这个点,我目前更心疼服务器负载和流量。已经连续四天超量采集了,难受。
2018 年 9 月 21 日
回复了 nicoljiang 创建的主题 程序员 爬虫爬的太多了,大家一般怎么应对这个问题。
@SukkaW 这是什么高难度操作啊。。。哭哭
@shingle 是,YouTube 的直播。
500 错误,兼容一下: https://www.youtube.com/watch?v=UR2YXccrtOE
@xuanwu

有点钻牛角尖了。在问题一大堆的前提下,你甚至跟本就无法回答这东西能给用户带来什么独特的价值(相较于目前的搜索引擎来说)。你能解决什么它们解决不好的问题??

咱们只能讨论客观的东西,如果你只是坚持内心所望,那话无多说,开干便是。

Yacy 就符合这个条件,不过 3-5 个爱好者,自己有能力,自己干就是。至于多少人力物力,那只跟你自己的斤两有关,你要是全能搞定,那成本就是 你一个人 + 一台电脑。



说点题外话:

如果你要跟人讨论问题,就不要随便拿万分之一说事。这不仅关乎你的智商问题,更有道德问题。

知乎的提问,你自是可以拭目以待。毕竟,到最后的最后之前,你都有权利说:一切还未盖棺定论。
@xuanwu 这个问题流产概率比较大,因为问题太大,而且并不是一个值得讨论的事情。
@xuanwu 我没有在说爬取数据的问题,我在说数据存储和可靠性的问题。你现在陷入一腔热情当中,你自己冷静想想 吧。你口口声声说的 Yacy,你觉得算成功,做出标杆了吗?
@xuanwu
1、假设百度索引的中文网页数量是 Google 的 1%,且以 百度 为目标;
2、那么你的总处理页面相当于 3000 亿个,以一个网页平均 8k 大小来算,加上向量关系、分词、权重、索引 等内容,一个页面占用的磁盘为 10k (非常保守);
3、那么你总共有近 30 亿 M 的内容要存储 —— 平均每个设备分担 100M,得 3000 万个 设备参与,每台设备分担 1000M,要 300 万台设备参与;
4、这些设备松散度极高,且可靠性非常低,你至少得做 10 个备份才有可能保证最基本的稳定可用,那么即便每台设备即便都能分担 1000M 数据,必须要参与的设备也来到了 3000 万台;
5、由于存储的极致分布式,导致某些 IO、CPU 甚至 GPU 密集型的运算几乎无法工作的。

其他的应该不用说了。

PS:非常不想泼冷水,但不得不感叹:艺高胆大 和 初生牛犊,真的只是一线之隔。
@xuanwu
1、缓存部分我已经说过了。搜索引擎虽然大部分的搜索量也会集中在少数高频关键词中,但同时也及其长尾。尤其像 Google 这种多地区、多语言,并且针对结果做了千人千面,所以传统的缓存命中率会很低,所以并不适用。50 个搜索 QPS,我已经算了缓存在内了,并且后面已经又做了个翻倍。
2、说到算法和数据,别说算法了,你现在的资源连大规模的爬虫都搞不定的。对普通用户来说,他安装了你的插件的确是可以分担网络资源和计算资源,但这本身是 IO 密集型的需求,而每个人的电脑手机配置和使用情况也是千差万别。只要用户一感知出来你这个东西长期在耗资源、耗网络,马上就会卸掉(参考 BT、电驴)。
@xuanwu
看了你这个回答,我感到特别恶心。。
你拿一个讨论 Web Server 的问答给我看是啥意思?也不知道你是真不懂还是钻牛角尖。
我那个帖子是在说 Web 服务器吗?是在说 LB 服务器吗?是在说 CDN 服务器吗?这些我统统没有说,我只是单单纯纯在说「搜索服务器」好吗???
1 ... 47  48  49  50  51  52  53  54  55  56 ... 62  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1887 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms · UTC 11:54 · PVG 19:54 · LAX 03:54 · JFK 06:54
♥ Do have faith in what you're doing.