V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
LeeReamond
V2EX  ›  NAS

汇报个事兄弟们,消费级 ECC,家用 NAS 一年工况良好

  •  
  •   LeeReamond · 2023-09-20 03:39:01 +08:00 · 4690 次点击
    这是一个创建于 415 天前的主题,其中的信息可能已经有所发展或是发生改变。

    去年 12 月配了台 NAS ,顺带跑一些数据和计算服务,CPU 占用率不低但网络 IO 方面不是太大。今天反应过来已经接好十多个月了,方案是消费级 ECC + windows 系统(非 server ),意料之外地稳定,7*24 运行从未关机,服务一直可以瞬时响应,也没出过啥内存泄漏之类的问题。

    总之就是理论上没问题的东西,实际跑了跑也没什么玄学问题。给有同样需求的兄弟们一个参考。

    ECC 是好文明诚不欺我,可惜现在主流厂商都在砍

    20 条回复    2023-09-21 03:20:40 +08:00
    Zinzin
        1
    Zinzin  
       2023-09-20 03:44:14 +08:00
    不懂就问,“消费级 ECC”是啥?
    (真不懂
    shinession
        2
    shinession  
       2023-09-20 08:15:00 +08:00
    @Zinzin ecc 内存, 现在 ddr5 本身就带 ecc 了
    yyysuo
        3
    yyysuo  
       2023-09-20 08:33:59 +08:00   ❤️ 1
    普通内存也没问题吧。
    locoz
        4
    locoz  
       2023-09-20 08:38:09 +08:00 via Android   ❤️ 4
    然而你拿非 ECC 内存一样可以 7*24 不关机、服务一直可以瞬时响应、不出现内存泄漏问题…
    jrtzxh020
        5
    jrtzxh020  
       2023-09-20 08:42:50 +08:00   ❤️ 2
    稳定运行和内存应该很少关系吧。。除非用斋条
    xlsepiphone
        6
    xlsepiphone  
       2023-09-20 09:18:46 +08:00
    我觉得 Linux 可能比内存条的作用更大。
    okzy520
        7
    okzy520  
       2023-09-20 09:23:24 +08:00 via iPhone   ❤️ 1
    其实不用 ecc 也没啥 我自用 z77 平台还是 ddr3 呢跑 pve 还不是 24 小时开着
    abc0123xyz
        8
    abc0123xyz  
       2023-09-20 09:24:31 +08:00
    非 ecc 问题也不大
    最重要的是:不停电一般不会出问题
    totoro625
        9
    totoro625  
       2023-09-20 09:31:44 +08:00   ❤️ 2
    @shinession #2 最近在研究 ECC ,看到这样的解释:(来源: https://ngabbs.com/read.php?tid=32473178
    参考 Wiki: https://en.wikipedia.org/wiki/DDR5_SDRAM

    普通 DDR5 的 on-chip ecc ,跟 ECC 内存有本质的区别:

    ECC 内存本质上是多传输给系统 1/8 的数据,用于纠偏和报警; ECC 不论是内存内部错误还是传输时发生干扰导致的错误,系统都能发现,这项功能需要 CPU 的支持
    普通的 ddr5 的 on-chip ecc ,传输给系统的数据不变,跟普通内存一样; ECC 只修正自身错误(而且是因为自身缺陷导致的错误),无法修正传输时发生干扰导致的错误,这项功能不需要 CPU 的支持
    (原话:所有 DDR5 芯片都具有芯片内 ECC ,在将数据发送到 CPU 之前检测并纠正错误。但是,这与内存模块上带有额外数据校正芯片的真正 ECC 内存不同。DDR5 的纠错是为了提高可靠性并允许使用更密集的 RAM 芯片,从而降低每个芯片的缺陷率)

    总而言之,把普通 DDR5 的 on-chip ecc 理解为给 ddr5 内存本身的问题擦屁股用的,根本就不是什么值得吹捧的卖点
    就像 SSD 从 slc 到 mlc 到 tlc 到 qlc ,使用的纠错算法越来先进,但是纠错算法不是代表 SSD 多牛,而是实际质量变差了,不得不加上纠偏算法
    laminux29
        10
    laminux29  
       2023-09-20 09:46:46 +08:00
    纯 ECC 没啥用,关键要 RECC 自纠错 + OS 内存条故障事件推送到手机来提醒及时更换。
    ProphetN
        11
    ProphetN  
       2023-09-20 09:47:46 +08:00
    不上 ZFS 这种对内存要求高的存储系统,ECC 的区别很难体现出来。
    ltkun
        12
    ltkun  
       2023-09-20 10:20:12 +08:00
    那我也汇报一下 ddr4 没有 ecc 已经稳定运行第五个年头了 目前文件系统改 zfs 了 不过内存还是 ddr4
    Augix
        13
    Augix  
       2023-09-20 10:56:55 +08:00   ❤️ 1
    家用环境 UPS 比 ECC 重要,ECC 一年都未必遇得到一个错误。

    https://www.bilibili.com/video/BV1AW4y1y796/
    libook
        14
    libook  
       2023-09-20 11:03:37 +08:00
    我 18 年配的 NAS 用的普通内存,跑到现在没有因为内存出过问题。

    另一台服务器 Win10 基本每周都会出现莫名其妙问题,但重启可以解决,所以怀疑是系统内存 Bug 。后来换了 Debian ,就稳定很多了。

    之前看到一个资深做定制 NAS 的商家说过,普通家用负载一年可能都不会出一次内存错误,所以一般也不会给客户推荐 ECC 内存。即便出了问题,大不了程序闪退,重新启动就好了。除非是那种出内存错误会导致其他严重连带问题的情况,比如文件系统。

    看到有人提到了 DDR5 的 ECC ,这个也让我困惑了一阵子,后来才知道因为 DDR5 硬件本身技术难度,导致错误没法降到可以让人接受的程度,所以内置了某种 ECC 机制来拉高可靠性的,但这个顶多了是提升到了 DDR4 的可靠性,追求更高可靠性可能还是需要企业级 ECC 。
    Niphor
        15
    Niphor  
       2023-09-20 13:36:35 +08:00
    考虑 ECC 不是因为 二手超便宜么...
    huoshen
        16
    huoshen  
       2023-09-20 14:07:02 +08:00
    要不锡箔纸把系统包起来,然后接地?
    busier
        17
    busier  
       2023-09-20 14:26:28 +08:00
    内存泄漏与否,看程序员水平!跟是不是 ECC 无关!
    matepi
        18
    matepi  
       2023-09-20 17:06:12 +08:00
    我都是用自己大奶机淘汰下来的非 ecc 机器控制跑手机集群
    大约 11 年,迄今为止出现的故障:

    1 、最老的一台机龄 15 年的机器主板网卡应该有点小故障,约 3 个月会断一次网,对于无头设备来说挺不友好的。设置了操作系统快捷键+脚本重启解决。
    2 、次老的一台机龄 14 年的笔记本在其作为主存储节点的第 3 年 HDD 损坏,磁头打盘应该是马达挂了。后续换用台式机做主存储节点并改用 SSD ,至今没有硬盘损坏。

    其他从未出现过任何内存故障、死机故障等问题,包括手机集群大量使用 USB 端口,USB 工作也没出现过问题。

    使用的包括联想、acer 的笔记本; hp&dell 的洋垃圾准系统+各种二手配件;自己搭的组装机大奶机淘汰。都没啥大问题。

    我感觉现代计算机的质量 7x24 还是基本可以的。倒是自己最新的一台联想刃系列大奶机,作为自己游戏机和平时做 console 形式的节点,7x24 小时 3 年 2 个月之后,一次关闭后再起不能,主板损坏。电脑不关就不会坏啊!
    GrayXu
        19
    GrayXu  
       2023-09-20 17:29:29 +08:00
    瞬时响应 内存泄露和 ECC 有什么关系。。
    nuk
        20
    nuk  
       2023-09-21 03:20:40 +08:00
    遇到过好几次,都是因为用的便宜条子,现在只要莫名系统崩溃,游戏崩溃,就直接先跑一套 memtest 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2717 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 12:56 · PVG 20:56 · LAX 04:56 · JFK 07:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.