V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  360safe  ›  全部回复第 1 页 / 共 1 页
回复总数  13
2018-09-11 12:07:57 +08:00
回复了 Ace77 创建的主题 问与答 怀疑谷歌浏览器被劫持了,不知道大伙有没有类似的经历?
今天我也经历了,把路由器换掉就可以了。修改 DNS 无效。 我是极路由器。
2018-01-27 08:29:23 +08:00
回复了 360safe 创建的主题 Python 请问 scrapy 出现 failure 的时候,如何执行 close_spider
收到,谢谢大家。
通过大家的回复,我学习到了,自己对 scrapy 的了解仅仅是点,应该好好学习官方文档形成一个大的知识面。

5 楼的方案之前用过,因为价格原因,大大超出了预算。(我要抓取的数据是千万级反复过滤)
2017-07-04 14:05:26 +08:00
回复了 360safe 创建的主题 Python scrapy 批量写入,不足数量如何收尾
@1O 一样丑……
2017-07-04 14:05:17 +08:00
回复了 360safe 创建的主题 Python scrapy 批量写入,不足数量如何收尾
谢谢大家,明白了,都怪自己没有细看官方文档。谢谢大家,学习成长了。
2017-06-19 14:07:01 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
嗯嗯,谢谢大家。最终解决方法是:
因为每次一条 insert into 插入速度很慢,用了一个全局变量存着值,5000 条 executemany 写入一次远程阿里云数据库。

批量后完全满足一分钟过滤 7000 条的需求。(本地数据库也受不了一条条插入。)
2017-06-17 19:07:31 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
@slixurd 也有阿里云的 Redis,不过远程的估计。。。。我试试本地的 MySQL。
2017-06-17 17:28:05 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
不是啊,用的阿里云 RDS,远程的。你这样提醒了我,一会弄一个本地的中转一下。
2017-06-17 17:19:27 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
问题应该解决了:

MySQLStorePipeline 定义了一个 article_items 集合用于存储 spider 爬到的 item,当 items 数量达到 1000 时,批量写入数据库。如果接受到 item 就单条写入数据库,会比批量写入慢很对,爬虫的效率会慢一个数量级。

http://kekefund.com/2016/03/31/scrapy-learn/
2017-06-17 16:45:24 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
@iyaozhen 请问如何将 每个 value 存着 ,是通过一个全局变量吗?还是在 Pipelines 中实现?
2017-06-17 16:40:02 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
@Allianzcortex executemany 看上去与 NSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....), (值 1, 值 2,....), (值 1, 值 2,....), (值 1, 值 2,....) 类似,只是更清晰。
2017-06-17 15:50:40 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
@iyaozhen 请问在 scrapy 里批量 的思路是什么?
2017-06-17 15:47:23 +08:00
回复了 360safe 创建的主题 Python scrapy 如何解决写数据库性能问题
scrapy 批量化 写入方案 怎么样呢?如果想实现的话如何实现呢?
2016-02-18 12:28:35 +08:00
回复了 xiaxue 创建的主题 魅族 我做了一个 魅族维权论坛: meizu315
唉,我也是,买了个魅蓝,第一次摄像头无法对焦,后来电话闪退。只能放弃。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5460 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 08:30 · PVG 16:30 · LAX 00:30 · JFK 03:30
Developed with CodeLauncher
♥ Do have faith in what you're doing.