V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
bingfengfeifei
V2EX  ›  Linux

求助 Linux 服务器死机有哪些可能的问题

  •  
  •   bingfengfeifei · 87 天前 · 2129 次点击
    这是一个创建于 87 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一台 Linux 工控机,最近频繁死机。具体的现象就是,PING 无响应,串口连接无任何反应。但是网线的灯是闪的,插拔网线也会亮灯和灭灯。长按电源硬重启恢复。开启 kdump 后,在/var/crash 中无任何文件产生,查看/var/log/messages 无任何异常日志,只是日志停在了死机的那一刻,串口也没有任何崩溃输出。 系统负载低,CPU 硬盘负载接近 0%,内存 15%左右,没有跑什么业务,设备的温度不高,都在 40-50°C 以下,死机的时候没有进行任何操作。

    目前怀疑方向是前段时间厂家给这个设备加了两个 PCI 扩展卡,目前该扩展卡上面还插了两个 PCI 网卡,以及网卡上面有一个光模块,但是没流量。

    这个问题有没有什么好的排查方向,目前在排除扩展卡,还是 PCI 网卡,还是插入的光模块导致。只能一个一个组件进行排除,但是该问题复现时间不确定,整个排查周期可能非常久。有没有什么其他更好的方向分析那个问题呢,还有上面新增的这几个硬件有没有可能导致这种现象发生呢

    15 条回复    2024-09-27 18:26:53 +08:00
    Moyyyyyyyyyyye
        1
    Moyyyyyyyyyyye  
       87 天前
    电源是否稳定,检查内存硬盘是否有问题,大概率是硬件问题
    tomemi
        2
    tomemi  
       87 天前
    换个内核看看
    yinmin
        3
    yinmin  
       87 天前 via iPhone
    接显示器/键盘看看死机前有没有报错信息。

    另外,你说的情况不一定 linux 死机,也许通过本机键盘能正常登录,只是网络故障。
    hefish
        4
    hefish  
       87 天前
    硬件。。。慢慢换吧。。
    sublimevsatom
        5
    sublimevsatom  
       86 天前 via iPad
    用最新内核看看
    bli22ard
        6
    bli22ard  
       86 天前
    我之前零刻 eq12 ,安装 pve 慢,然后运行中负载搞了就容易死机。换了内存尝试依旧。后面还了 ssd ,好了。奇怪的是这个 ssd 检测,当移动硬盘什么都正常。
    flynaj
        7
    flynaj  
       86 天前 via Android
    https://www.memtest.org/ 先跑内存测试。
    basncy
        8
    basncy  
       86 天前
    遇到过同样的问题, 当时我的情况是 SSD 硬盘快坏了, 换了块硬盘就好了. 庆幸当时还能把数据读出来.
    bingfengfeifei
        9
    bingfengfeifei  
    OP
       85 天前
    @yinmin console 也没有反应了,而且重启时候的日志分析,日志停在了死机那一刻,CPU 内存状态采集的程序也在那一刻归零一条直线。 大概率还是系统死机了,不仅仅是网络问题
    bingfengfeifei
        10
    bingfengfeifei  
    OP
       84 天前
    @flynaj 跑了 3,4 个小时,0 error 。。
    druggo
        11
    druggo  
       84 天前
    @bingfengfeifei 真正的问题日志可能没有机会存盘了,可以考虑开这个远程记录下内核日志 https://www.kernel.org/doc/html/latest/networking/netconsole.html
    dode
        12
    dode  
       84 天前
    键盘大小写呢
    flynaj
        13
    flynaj  
       83 天前
    @bingfengfeifei #10 跑一圈,出 pass 就行。然后跑 cpu,windows 下用 aida64 跑系统稳定性测试,只点 fpu. linux 下用 stress-ng --ipsec-mb 0 --ipsec-mb-feature avx2 测试 cpu 。avx2 换成呢最高支持的指令集 avx sse3 sse2 sse 等
    flynaj
        14
    flynaj  
       83 天前
    cpu 干完,在测硬盘。硬盘闪存颗粒坏的概率就非常高了。
    liuliancao
        15
    liuliancao  
       80 天前
    dmesg -T|grep -i err 可以看看 另外 crash 没产生 看看 ulimit -a 是否 core 那一行是 0 (应该不是 0 才对)感觉一般是内核或者驱动问题 如果非生产环境,可以先备份好,把系统能升级的升级下 在启动的时候换个内核
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5121 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:48 · PVG 13:48 · LAX 21:48 · JFK 00:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.