V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wuyadaxian
V2EX  ›  硬件

东芝硬盘是垃圾,奉劝各位不要买。求帮助!

  •  
  •   wuyadaxian · 305 天前 · 8061 次点击
    这是一个创建于 305 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我在日本某动画公司工作,因为公司业务需要,需要弄一台大点的 SAMBA 共享服务器。

    于是去年年底购入了 16 块,16TB 的 toshiba ,型号 MN08ACA16T/jp 。

    日本国内质保 3 年,免费换新。

    售后挺好的。但是噩梦来了。


    去年 9 月购入,然后装机,上机架,系统设置,一气呵成。

    15 盘 RAID10 ,+1 备用盘。合计 109T 可用空间。

    然后做了 1 个月测试,没发现问题。

    然后将业务数据移动到新服务器上。

    正常开始跑业务。

    也就是公司内部的作画 psd ,摄影 ae 做影片到处 mov 等数据在传输。


    接下来 11 月开始卡了。

    各种卡,表现为 smbd 或者 flush 进程 100%。

    硬盘 io 全为 0.

    甚至 dmesg 都出现内核恐慌了。

    分析了下就是写入硬盘,然后没了。

    等待 30-300s 随机时间,硬盘写入恢复。

    怀疑写入遇到坏块了。

    smartctl 测试走起。

    好家伙,16 块盘,有 6 块报坏块。


    不得不说,日本经销商态度可以。

    马上 [私密马赛,私密马赛,私密马赛]

    我们给你换。

    换货邮费还是经销商全包。

    甚至提供先发货,我再退货的服务。


    换货之后

    陆续小卡,恢复时间很短,基本上 10s 内。

    而且 SMART 也不报错,smartctl -t long 测试也能无错通过。

    我就放置了。


    24 年 1 月 12 日,

    又开始了,超级大卡。

    这次恢复时间居然超出了 600s ,

    所有含写入的进程都在内核恐慌。

    dmesg 拉了 300 多行.

    关键是这个一卡,公司业务全部要暂停,

    硬盘写入读取完全无响应。

    同事翘脚抱怨,我就只能打哈哈调试。


    之后从 12 日开始到今天 18 日,

    每天都有十来次卡顿,

    30s-120s 才能恢复。

    关键是 SMART 不报错。

    日嘛,头都大了。

    你要是报错,我就把你提出来找经销商换新啊。

    你啥错误都不报,smartctl test 还能正常无错通过。

    但是就是卡,简直要了我的狗命。


    老板问,为啥服务器又卡了。

    我,硬盘可能又坏块,要坏了。

    老板,那找厂家换吧。

    我,硬盘没报错,暂时还不能保修换新。

    老板,你 TM 拿我开心啊,给我去解决这个问题。

    我,打工人乖乖退下。


    mb 东芝硬盘,

    现在虽然偶尔卡顿,但是每天业务还在进行。

    我又不能现在卸载硬盘来跑个完整的写入测试。


    求问各路大佬有没有什么办法。

    任何方法都可以尝试。

    真心求问。

    79 条回复    2024-01-22 12:29:42 +08:00
    aaniao002
        1
    aaniao002  
       305 天前 via Android
    感觉像买到 smr 了,用硬盘产品型号那一串查一下,如果是 smr 直接全换了吧。写入量一高各种卡。
    lesismal
        2
    lesismal  
       305 天前   ❤️ 1
    有故障现象就拿去售后,人家没说你用户自己检测不报错就不能售后吧?
    wuyadaxian
        3
    wuyadaxian  
    OP
       305 天前
    @aaniao002 CMR ,确认过了。买的时候和商家确认了,官网也确认了,第一次保修换新的时候也确认了,就是 CMR 。但是感觉比 SMR 还垃圾
    wuyadaxian
        4
    wuyadaxian  
    OP
       305 天前
    @lesismal 拆不掉,主业务在上面。只能提供报告,然后对面寄新盘,同时交换了,我再把旧盘发回去。
    ---
    现在让我拆 RAID10,拆一半出去,很慌,我怕刚拆完,另一半的某块盘报坏块了。
    wuyadaxian
        5
    wuyadaxian  
    OP
       305 天前
    @lesismal 返厂检查至少 2 周起,检查这两周不给备用盘,RAID10 抽走一半,我怕是要 GG
    gamexg
        6
    gamexg  
       305 天前   ❤️ 2
    数据重要不?
    重要赶紧买新硬盘替换掉.

    另外是不是其它硬件存在问题?
    6/16 的故障几率是不是也太离谱了?
    电源之类有问题造成硬盘损坏?


    要不临时买少量几个其他品牌的盘替换掉目前的盘,然后把替换下来的返厂看看厂家怎么说?
    bihui
        7
    bihui  
       305 天前
    MN08ACA16T/jp 。 我好像买的也是这个
    xausky
        8
    xausky  
       305 天前
    感觉不至于呀,我这国内买的矿渣东芝盘都还挺好的
    GooMS
        9
    GooMS  
       305 天前 via Android
    检查下硬件把
    Pichai
        10
    Pichai  
       305 天前
    我咋看新闻东芝都要把存储业务卖掉了!
    Donahue
        11
    Donahue  
       305 天前
    我觉得主要的硬盘厂商 东芝 西数 希捷就这三家吧,问题应该不是东芝,可能受到电源等外部因素影响的,我去年闲鱼买的东芝 14TB 矿渣都没什么问题
    northbrunv
        12
    northbrunv  
       305 天前 via Android
    企业级还得是希捷靠谱啊
    shijingshijing
        13
    shijingshijing  
       305 天前
    东芝的盘是三家里面最稳定的了,建议先还是查看一下电源吧
    datou
        14
    datou  
       305 天前
    大盘只能买企业盘

    TOSHIBA 的企业级是 MG 系列吧

    MN 是什么鬼。。。。
    MoeWang
        15
    MoeWang  
       305 天前 via iPhone
    要不要做做电源纹波测试先
    dasenlin
        16
    dasenlin  
       305 天前
    看样子是硬盘背锅了,按概率讲,就算是数据中心的使用频率和量,一年左右同时坏 6 块,这个概率是极低的。再说第二次换新后还是无缘由的无响应,你要考虑下服务器硬件或者软件设置上的问题了。
    这个样子你再次换新硬盘,还是解决不了问题。
    可以先把硬盘替换到新硬件平台排除一下原来平台的问题。
    anyinuo0413
        17
    anyinuo0413  
       305 天前   ❤️ 1
    俩月多 50%的故障率,感觉不是硬盘的问题,检查下机房环境/电源?
    再差的盘 故障率也不可能这么高啊…
    msg7086
        18
    msg7086  
       305 天前
    @datou MN 是家用级 NAS 盘。

    @wuyadaxian 按理说 NAS 系列是不太适合那么多盘放在一个机箱里跑的。企业级才适合这种环境。
    比如 Ironwolf 系列只 rate 到 8 块硬盘在一个机箱里跑。
    hGaHLRyC
        19
    hGaHLRyC  
       305 天前
    16 块盘那么短时间同时 6 块出现坏块,是不是检查下硬盘外的问题啊,比如主板,震动和供电?这比率太高了把?
    datou
        20
    datou  
       305 天前   ❤️ 1
    @msg7086 8T 以及 8T 以上非企业盘都是坑小白的

    请认准 TOSHIBA MG ,SEAGATE EXOS 和 WDC ULTRASTAR 系列的正统企业级 HDD
    leonme
        21
    leonme  
       305 天前 via iPhone
    @northbrunv 其实都半斤八两,这玩意儿又没啥技术含量,拼的就是价格和售后
    wuyadaxian
        22
    wuyadaxian  
    OP
       305 天前
    @gamexg 第一批返回去的 6 块厂家都确认了就是硬盘问题。
    这边上的 4U 机箱,前板和电源之前就测试过了,没有问题。
    估计要换西数了。
    wuyadaxian
        23
    wuyadaxian  
    OP
       305 天前
    @MoeWang 这个没测过,想了解下
    wuyadaxian
        24
    wuyadaxian  
    OP
       305 天前
    @hGaHLRyC
    是的。一开始是这么想的。
    考虑过 RAID 卡,前板,电源等问题。
    RAID 卡是两块,前板也是多块,供电至少电力没问题。
    温度适度震动应该都没问题。毕竟机房不是他一台机器。
    另外还考虑过 linux 软件内核等问题。
    最后测试下来,至少硬盘概率最大。

    当然我不能说绝对,至少上面 v 友提到的电源纹波没做过。
    wuyadaxian
        25
    wuyadaxian  
    OP
       305 天前
    @datou 下次认准了。大容量硬盘真是坑多。
    wuyadaxian
        26
    wuyadaxian  
    OP
       305 天前
    @dasenlin 估计要启用老服务器,然后进行测试了。但是老服务器是 windows 家庭版。samba 限制 20 人接入。(没听错,windows 家庭版,不是我负责的,前人的智慧
    wuyadaxian
        27
    wuyadaxian  
    OP
       305 天前
    @msg7086 学到了。有一说一,现在老服务器还有 3TB * 12 的希捷普通盘在 4U 机箱里面跑,听说已经服役了 5 年了,虽然已经挂了 2 块盘,但是稳定性比这个新的还好。
    kkk9
        28
    kkk9  
       305 天前
    啥牌子啥型号的阵列卡,曾经遇到过一些很魔幻的,除了某一个品牌的盘,其他牌子的都各种出问题😅
    lizhengbo
        29
    lizhengbo  
       305 天前
    @wuyadaxian

    Windows 还是稳定, 操作简单, 重新迁移到 Windows Server 就好了.

    而且 WinServer 的域权限可以和其他很多文件服务联动, 客户端加不加域都行.

    WinServer 的文件服务还提供很多强大便携的功能, 权限管理又直观.

    例如每创建一个用户, 自动在共享目录下生成该用户的共享目录.

    开源的坑太多.
    lesismal
        30
    lesismal  
       305 天前
    公司里用,RAID 也不稳,还是多搞一组、一个常用另一个定期备份下好些

    看样子我买的几块二手企业级还是很划算的。。
    wuyadaxian
        31
    wuyadaxian  
    OP
       305 天前
    @kkk9 lsi 9211-8i 芯片,IT mode ,直通 linux ,mdadm 软 raid
    testonly
        32
    testonly  
       305 天前
    我觉得你这个问题吧,反正你都不可能再用东芝的了,也肯定要换硬盘的了,那你就去买几个同级别的其他牌子硬盘试试好了。
    如果其他牌子的没问题,就全换那个牌子。
    如果有,就是你们使用上的问题了,要么硬件问题,要么是这个层次的硬盘达不到你们工作强度的需求?
    但你如果直接全部上更高级别的硬盘,那不一定有答案,可能有,可能没,反正自己决定了。
    wuyadaxian
        33
    wuyadaxian  
    OP
       305 天前
    @lizhengbo 日本公司,winserver 可是需要大价钱购买的。可不是随便就敢用的,查到就罚几千万。不然为什么前人要用 windows 家庭版做 samba 共享服务,因为 windows 家庭版随机附送,约等于免费。
    6a82aa9bfe
        34
    6a82aa9bfe  
       305 天前 via Android
    硬盘最好不要同个厂商同个批次的,这样就算坏了也不至于同时坏
    wuyadaxian
        35
    wuyadaxian  
    OP
       305 天前
    @testonly 是的,所以我在想启用老服务器,先把资料转移回去,持续业务的情况下重新测试新服务器。等测试结果再决定。
    wuyadaxian
        36
    wuyadaxian  
    OP
       305 天前
    @6a82aa9bfe 那批就是同厂,同批次,至少我觉得被坑了。
    mokiki
        37
    mokiki  
       305 天前
    了解一下 TrueNAS 吧,不仅共享权限设置简单,而且还有邮件报警功能。得益于 OpenZFS 提供的 RAIDZ ,使阵列恢复的用时更少。
    你还在等什么,赶快打开你的浏览器下载吧: https://www.truenas.com/truenas-scale/
    yyzh
        38
    yyzh  
       305 天前 via Android
    ?你们没备份的么?像我们公司都是用 Barracuda 做本地备份然后每天下班后上传 Barracuda 云做远程备份的,就算服务器硬盘全挂都能很快恢复.
    jdqingm
        39
    jdqingm  
       305 天前
    会不会是网络冲突什么的
    xcodeghost
        40
    xcodeghost  
       305 天前
    我们服务器几乎都是东芝的企业级硬盘,感觉质量还可以啊,好像从来都没出现过问题
    lizhengbo
        41
    lizhengbo  
       305 天前
    @mokiki
    权限设置简单吗, 我试了下不简单啊.
    wuyadaxian
        42
    wuyadaxian  
    OP
       305 天前
    @xcodeghost 下次换企业级吧,家庭级别感觉不行。
    wuyadaxian
        43
    wuyadaxian  
    OP
       305 天前
    @jdqingm 不会,因为服务器还有系统盘。所以网络和其他服务是正常的。另外卡的时候,在服务器本地操作,挂载的硬盘也无响应。
    wuyadaxian
        44
    wuyadaxian  
    OP
       305 天前
    @yyzh 备份不能替代业务盘,业务卡的时候又不能拖出备份盘来用。
    除非做数据集群动态负载均衡。但是小公司没必要吧。
    msg7086
        45
    msg7086  
       305 天前
    @wuyadaxian #27 希捷普通盘?难道是 barracuda……?
    ZRS
        46
    ZRS  
       305 天前
    Toshiba 只推荐买 MG 系列
    ltkun
        47
    ltkun  
       305 天前 via Android
    op raid10 竟然用软 raid 不用 zfs zfs 明显更加灵活性能也应该更好 失误哦 民用东芝是不行的 刚刚我用了五年的东芝被替换了 smart 已经报错 80 多次了
    telaviv
        48
    telaviv  
       304 天前
    买大硬盘推荐先读这个:
    https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data

    自己的 NAS 用了东芝 MG 的氮气盘,比较安静,还算满意。
    1KTN90lKW9gVJ9vX
        49
    1KTN90lKW9gVJ9vX  
       304 天前 via Android
    我用东芝 n300 ,16t ,感觉还不错。
    piku
        50
    piku  
       304 天前 via Android
    正常啊,东芝的机械盘故障率一直是很高的(依据:某数据中心公开的统计报告
    东芝固态(铠侠)其实还行的,但是性价比不高
    litguy
        51
    litguy  
       304 天前   ❤️ 3
    感觉不像硬盘问题
    硬盘不会这么大规模故障
    重点检查硬盘供电,数据线和 RAID 卡
    怀疑这些不稳定导致硬盘故障的
    16 年企业级存储研发路过
    litguy
        52
    litguy  
       304 天前
    把硬盘型号,机器配置,RAID 这些相信信息报告一下吧
    Actrace
        53
    Actrace  
       304 天前
    为啥不考虑 SSD ?
    liuhaibin
        54
    liuhaibin  
       304 天前
    10 年前买过 2 次东芝,没到就是坏的。从此不敢买
    gbw1992
        55
    gbw1992  
       304 天前
    这种坏盘几率
    我咋也感觉不像是硬盘的问题的
    类似供电不稳定导致的
    Xenotaros
        56
    Xenotaros  
       304 天前
    大容量只推荐企业级硬盘
    totoro625
        57
    totoro625  
       304 天前
    @litguy #51 他是 mdadm 软 raid10 ,没有 raid 卡

    这种情况是不是 zfs 更合适?
    ReZer0
        58
    ReZer0  
       304 天前
    这个坏盘率的确有些离谱了,除非他们发出来的这个批次的盘大部分都不合格,不然一下子这么多块真的得考虑下电源问题。
    itsjoke
        59
    itsjoke  
       304 天前   ❤️ 1
    最近一年应该买了上千块 MG 系列,坏盘率低于 ST 和 WD 。真的是稳,不过有一段时间老是坏盘,最后经过反复测试发现是机箱开了全速风扇导致的,供 OP 参考!
    andydebug
        60
    andydebug  
       304 天前
    人家都退市了,你说渣不渣
    liuzimin
        61
    liuzimin  
       304 天前 via Android
    只有我在好奇你是怎么找的赴日工作的吗?
    villivateur
        62
    villivateur  
       304 天前
    我觉得可能是你电源或者机柜温度、震动之类的导致的,不然故障率不可能这么离谱
    yukiww233
        63
    yukiww233  
       304 天前   ❤️ 1

    8 块都是捡的矿盘 MG ,最长的已经用了 2 年+了,暂时都还挺好的
    Torpedo
        64
    Torpedo  
       304 天前
    概率上来说,同品牌换货还不行概率比较低。也有可能是别的问题引起的
    wk333
        65
    wk333  
       304 天前
    @Actrace #53 16*16T 怎么都不会考虑吧
    laminux29
        66
    laminux29  
       304 天前
    哥们没经验啊...其实买之前应该去论坛或 NAS 群问问的。

    世界上质量最好的硬盘是日立,没有之一。质量好到把自己的厂子给整垮了,现在买不到了。

    最垃圾的是哪个牌子,我不知道,但东芝,是我遇到过,唯一的一款,京东自营全新,用了半年就坏道了的。

    企业级的做法是,希捷企业盘与西数企业盘,间隔着用,而且异物理机+异硬件+异 OS 共 3 副本。
    sorsens
        67
    sorsens  
       304 天前
    @wuyadaxian #3 你自己测一下硬盘的读写性能,官方写的 cmr 也可能是 smr 的性能。
    测完硬盘性能,就排除一个
    janpun
        68
    janpun  
       304 天前
    上大学的时候买东芝笔记本,前两个月连续坏了两次,都是因为内置的东芝硬盘
    zundamon
        69
    zundamon  
       304 天前
    看 backblaze 硬盘报告,企业盘的话东芝 MG08 、西数 UltraStar 故障率都不高,希捷有几款高的要避雷。MN 应该是民用降级款,但是这个故障率还是有点高,检查下是否是电源的问题吧
    geniussoft
        70
    geniussoft  
       304 天前 via iPhone
    除了硬盘的问题之外,系统的选择也是大问题。

    这种应该直接选择群晖。
    我知道 smartctl 人工也能看,但是谁能坚持每天检查呢?忙起来可能直到崩了才想起检查。
    以及设置每月 Smart 完全检测,以及 Raid Scrub 。

    另外,硬盘目前还是 HGST 牛逼。
    zundamon
        71
    zundamon  
       304 天前
    @geniussoft HGST 已经变 WDC 咯,认准 ultrastar 就行了
    litguy
        72
    litguy  
       304 天前
    @totoro625 是的,ZFS 更合适
    mokiki
        73
    mokiki  
       304 天前
    @lizhengbo #41 web 界面看着有点繁杂,但是还是比手敲那一套命令简单吧。
    zzboat0422
        74
    zzboat0422  
       304 天前
    最近五年管理过一万块以上大容量 HDD ,只有东芝盘让我们遇到了大坑。现在招投标的要求中已经明确禁止用东芝盘了。
    dog82
        75
    dog82  
       304 天前
    跟电源有关系,供电不足硬盘很容易坏
    lizhengbo
        76
    lizhengbo  
       304 天前
    @mokiki
    小公司, 个人直接上 WinServer 是最强方案, 没有之一.

    更别提还有 Hyper-V 强力支援.

    大公司其实折腾这种开源或者社区版方案其实算土方法, 不深入研究出问题很难把控, 深入又投入成本太大, 对个人发展其实没啥帮助, 存粹浪费生命.
    lizhengbo
        77
    lizhengbo  
       304 天前
    @mokiki

    文件共享, 权限管理等基本需求完全没必要整其他, 就 WinServer 就好了.

    除了历史查看, 修改这个需求, 我想不到有比 WinServer 更稳定, 更省心的操作.

    WinServer 还可以部署在线 Office 预览, 编辑, 兼容性和稳定性不是秒杀 99+的在线办公.
    kkk9
        78
    kkk9  
       304 天前
    @wuyadaxian #31 9211 刷了 IT 固件,IOPS 上限也只有 18 万左右。考虑换个卡,你也许有新的发现
    wuyadaxian
        79
    wuyadaxian  
    OP
       301 天前
    基本确认了问题原因,详情看新帖
    https://v2ex.com/t/1010610
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1012 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 21:31 · PVG 05:31 · LAX 13:31 · JFK 16:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.