yumenoks 最近的时间轴更新
yumenoks

yumenoks

V2EX 第 310203 号会员,加入于 2018-04-20 14:38:10 +08:00
一个爬虫的过滤问题
Python  •  yumenoks  •  2019-07-17 13:30:20 PM  •  最后回复来自 yumenoks
6
如何限制 Linux 本机只能访问国内的 IP?
Linux  •  yumenoks  •  2019-07-15 21:39:29 PM  •  最后回复来自 yumenoks
21
yumenoks 最近回复了
2019-07-17 13:30:20 +08:00
回复了 yumenoks 创建的主题 Python 一个爬虫的过滤问题
@ClericPy IP 倒不是瓶颈,不是针对单站爬行的,每个站只会访问 1-2 次而已
2019-07-16 18:36:51 +08:00
回复了 haiyan 创建的主题 程序员 PHP 网站内存占用很高,一做活动就挂了,大佬们帮忙看看
上服务器吧,一个月 300 左右的,
然后把数据库分离出来,丢到阿里云啥的,
服务器可以弄 2 台,或者 1 台多 IP,然后开 1 台 linux 跑 web,一台 window 跑关关采集.
看你自己的预算了.
2019-07-16 18:34:24 +08:00
回复了 yumenoks 创建的主题 Python 一个爬虫的过滤问题
@alanv2 开始是直接获取整个页面的链接,然后进行过滤,对 URL 的长度,后缀进行了过滤,
如果设置成 域名带有 WWW 的才保存的话,数量就很少.如果不这样设置的话就会跑到蜘蛛池里面去.所以有点尴尬.
2019-07-16 18:32:50 +08:00
回复了 yumenoks 创建的主题 Python 一个爬虫的过滤问题
@cwjokaka 只爬去一个 url 的主页的链接,
2019-07-16 15:18:33 +08:00
回复了 keepeye 创建的主题 程序员 一冲动购买了百度网盘 svip,结果没一点提速效果
baiduwp.com 了解下?
2019-07-15 21:39:29 +08:00
回复了 yumenoks 创建的主题 Linux 如何限制 Linux 本机只能访问国内的 IP?
@greenskinmonster ipset 也可以用这个命令么?
iptables -A OUTPUT -m geoip ! --destination-country CN -j DROP
2019-07-13 22:16:35 +08:00
回复了 ladypxy 创建的主题 Python Python 中 if..else 的优化。。。
if 'keyword' in list_a[0]:
if list_a[1] == A:
=============
这里可不可以这个 if 'keyword' in list_a[0] and list_a[1] == A:
2019-07-13 12:58:37 +08:00
回复了 yumenoks 创建的主题 Linux 如何限制 Linux 本机只能访问国内的 IP?
@AlynxZhou 不太成,防火墙规则没那么广泛哈哈,还是自己定义的好
只有我是用 aiohttp 撸简易的分布式爬虫吗?..
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5250 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 18ms · UTC 09:17 · PVG 17:17 · LAX 02:17 · JFK 05:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.