V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xiaocsl
V2EX  ›  问与答

一个关于爬虫效率的问题,碰到瓶颈速度死活无法再提升.

  •  
  •   xiaocsl · 2015-11-24 17:35:16 +08:00 · 2177 次点击
    这是一个创建于 3293 天前的主题,其中的信息可能已经有所发展或是发生改变。
    分别在三个网络环境中测试
    网络环境 带宽上行 带宽下行
    联通无路由 8Mbps 0.8Mbps
    长城有路由 15Mbps 15Mbps
    阿里云 10Mbps 10Mpbs

    全部 Windows 系统

    三种环境下,不管是多线程,还是开多份软件.
    速度都无法突破每秒钟 110 左右的 HTTP 请求.(带宽还很富余)

    问一下,是什么瓶颈卡住了速度.
    第 1 条附言  ·  2015-11-24 18:22:52 +08:00
    现在的极限速度:
    每秒 110 左右个 HTTP 请求.
    下行 500kb 每秒
    下行 150kb 每秒
    6 条回复    2015-11-24 18:21:34 +08:00
    xiaocsl
        1
    xiaocsl  
    OP
       2015-11-24 18:02:10 +08:00
    突然感觉好可怜,完全没人看啊.
    fishioon
        2
    fishioon  
       2015-11-24 18:09:13 +08:00
    你是如何确认带宽还有富余?单线程无法跑满带宽可以理解,但是如果多个进程肯定会跑满带宽的,当然进程之间是独立的
    wy315700
        3
    wy315700  
       2015-11-24 18:09:27 +08:00
    秒钟 110 次请求,如果每次请求 10KB 的话,那就是 1.1MB ,已经到了带宽上限了
    xiaocsl
        4
    xiaocsl  
    OP
       2015-11-24 18:16:19 +08:00
    @fishioon
    联通的,是跑满了.
    长城宽带不稳定另说.
    但阿里云我确定没跑满.


    @wy315700
    流量上行每秒 150kb 左右,离 10Mbps 还很远.
    wy315700
        5
    wy315700  
       2015-11-24 18:19:50 +08:00
    @xiaocsl
    下行呢
    xiaocsl
        6
    xiaocsl  
    OP
       2015-11-24 18:21:34 +08:00
    @wy315700
    下行每秒 500kb 左右.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2840 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 09:00 · PVG 17:00 · LAX 01:00 · JFK 04:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.