理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?
有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。
101
liuxu 2021-09-25 13:12:02 +08:00
既然 100 条了,那我翻个页
|
102
wangyzj 2021-09-25 13:48:01 +08:00
假设每天坏一块硬盘
|
103
yidingz 2021-09-25 14:13:14 +08:00
这么说吧,一台机器的寿命是三年算 1000 天,就算这五万台机器都是能运行三年不出错不坏,轮流着换。平均每天要下线 50 台机器,上线五十台。
一个人,就每天拔两个机架 50 台机器的网线电线,拉出来,装 50 台新机器进去,插线,(假设系统都是自动 provisioning ),嗯我估计够呛。就给你 50 台 1U 的机器让你拉去仓库,你就累残了。 实际机器跑个一年半载的可能就要维护,实际每天硬件维护超过 100 台机器,嗯 996 估计是不行,007 都扛不住。 |
104
gvhao001 2021-09-25 19:25:19 +08:00 via Android
管理?什么叫管理!开机关机算不?保持清洁算不?
|
105
js8510 2021-09-26 02:22:40 +08:00 1
看你怎么定义 “运维”。。
我是 oncall 过比五万台更多的机器的服务。高度自动话以后。。其实 5 万还是 10 万台机器,差距不大。manual operations 也不是很多。。甚至有>50%的时间写代码,开会什么的。更多的就是: - 工作时间 alert 都看一看。 - 非工作时间 高 priority 的 alerts 看一看。低的直接忽略。 - 出事了有各种 data set, logging 。 有经验的话很快就能找到问题大致方向。熟悉了(因为出了 SEV 都要 review 的)也能知道大致会经常遇到的问题。 - 搞不定就把别的 oncall 拉起来。怀疑 downstream 拉 downstream .怀疑是谁的 change 就把谁叫起来问。纯粹需要帮助也可以拉别人起来。 - oncall 结束以后总结一下,noisy alerts 想办法调一调。有些简单的问题想一想能不能搞个 auto remediation(比如有些情况明显是 auto-scale 有问题,那就在这种条件下让他自己关了 and scale to max size 等第二天上班时间再解决。这样你非工作时间就不用搞这些了。。还有比如某些 feature 还不问题也不中要,那你监控到它挂了直接给他关了然后把 alert forward 给 onwer 等天亮了再说 等等等). 所以我觉得是需要点经验的事情。。但是多数时间一个人搞的定的。当然偶尔也有倒霉的时候。 |
106
guo4224 2021-09-26 12:00:45 +08:00
5 台和 5 万台没区别吧
|
107
flyingghost 2021-09-26 12:09:11 +08:00
老板:公司成立起来了,广告也打出去了,客户也忽悠到了。现在就差开工干活了。
小王,公司现在已经有 5w 台服务器了,你得出个方案,负责管好。 小王:我才刚入职就我一个运维怎么管 5w 台?唔。。。先上 V2 求个方案吧。 |
108
xingtian 2021-09-26 12:38:48 +08:00
5 万台运维我不知道,但是我现在一个人管理 10 万台终端跟服务器的网络安全跟中毒的问题,还能成天摸鱼
|
109
jsion 2021-09-26 15:02:30 +08:00
真搞笑,一个运维连传话筒都做不了,每天审批工单就够整活了,别说在庞大机群规模底下做运维。感觉就是打广告拿需求的。
你们充其量也就一个做监控平台的,难道也想把整个 IaaS 所有管理层面的工作都给抹平了,你真给想屁吃,先追齐深信服的云解决方案再说吧,最多就上层运维平台的一个子系统,各种虚拟化计算、存储、网络管理、流程引擎、服务编排、迁移和灾难恢复、计费治理等基础资源纳管能力都没有,谈什么服务器管理,真就当服务器管理就开关机 /遇障重启呗 而想要靠一个平台系统来解决这些问题几乎是不可能的,功能能齐备就很不容易了,更何况各公司架构和技术栈千奇百态,光采购适配就有的搞,一般大点公司都是自研的,外采管理压根就不用想,出了问题都是自己的命,哪敢交给别人 一个人,如果没有完整成熟且高度自动化的基础平台支撑各项业务,那么可以在那等死了 |
110
billwang 2021-09-27 08:32:10 +08:00
5w 台服务器,其实不用讨论答案,lz 你到有 5w 台服务器的机房看一看自己就会有答案了。光说数字真的感觉不出什么。
|
111
dream10201 2021-09-27 09:29:19 +08:00
每周挖一天
|
112
LuBenwei6p 2021-10-21 16:13:16 +08:00
别吹了真的 吹有个度,如果都是矿机 客户的机器 你还管毛阿坏了就坏了,如果是公司自己的产品 你一个人来给我维护 50000 台试试 别说 50000 台 5000 台都是问题
|