V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
panyanyany
V2EX  ›  问与答

高并发的服务器,需要监控哪些指标呢?

  •  
  •   panyanyany · 2019-01-16 18:09:23 +08:00 · 1939 次点击
    这是一个创建于 2168 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近遇到问题如下:

    1. 不明原因 ssh 登不上( timeout ),服务器 http 接口返回 502 Bad gateway。
    2. 某个服务突然出现一大堆 redis 的连接错误 redigo: use of closed connection (反复检查了代码,有正确关闭 redis.Conn )。重启该服务又没问题了。

    这些问题目前都没什么头绪,服务器的 CPU,Memory 这些常用的监控指标完全看不出来有问题。有大佬知道一套完事的监控方案吗?

    9 条回复    2019-01-17 09:59:56 +08:00
    blless
        1
    blless  
       2019-01-16 18:13:42 +08:00 via Android
    连接数
    ruandao
        2
    ruandao  
       2019-01-16 18:15:12 +08:00
    2.
    显然是 因为使用了已经关闭的连接。。。
    ly4572615
        3
    ly4572615  
       2019-01-16 18:19:35 +08:00   ❤️ 1
    连接数,内存占用,cpu 占用,服务进程存在与否,监听端口存在与否,外网网络延迟,磁盘占用,算了越说越多
    houzhimeng
        4
    houzhimeng  
       2019-01-16 18:22:08 +08:00   ❤️ 1
    slb (有效并发,活动并发连接,非活动,流量)
    实例(常规项),内核优化 timeout 之类的
    CivAx
        5
    CivAx  
       2019-01-16 18:26:55 +08:00   ❤️ 1
    netstat 观察连接数
    htop 观察 CPU 占用与 Load,并发暴涨应用可能会导致 CPU 出现线程阻塞( Kernel BUG: CPU Stuck )
    dstat 观察磁盘读写
    内存反而是你最不该关心的(如果你分配了 Swap 的话)
    byteli
        6
    byteli  
       2019-01-16 18:55:29 +08:00 via Android
    看描述是要监控特定端口的连接。以及在代码里多打日志
    micean
        7
    micean  
       2019-01-16 19:31:20 +08:00
    2. 中间有没有代理或者防火墙,如果有的话看看配置的默认超时时间
    ly4572615
        8
    ly4572615  
       2019-01-17 09:40:17 +08:00
    @CivAx 我手里有个项目连接数不到 100 的情况下,内存吃光,swap 用了 80%(16G 内存,4Gswap)
    CivAx
        9
    CivAx  
       2019-01-17 09:59:56 +08:00
    @ly4572615 你这个是“因为后端应用的内存限制问题导致内存吃空”,而不是“因为并发问题导致内存吃空”,不是一个讨论点。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1050 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:26 · PVG 03:26 · LAX 11:26 · JFK 14:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.