V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ctrlmymood
V2EX  ›  服务器

请问大佬们,给 100 台服务器装软件、改配置等,运维,推荐什么方法好

  •  
  •   ctrlmymood · 7 天前 · 3587 次点击

    什么软件运维 100 台机器比较合适,后期理论可能扩容 1000 台

    需求:

    1. pxe 会批量部署基础软件,我目前主要方式写个脚本放在/etc/profile 文件,系统启动就检测,有就 ok ,没有就装
    2. 已经运行得机器,批量修改相关配置,或者部署软件之类,目前看 ansible 方式,或者 pssh 系列
    3. 后期涉及到装备开发,会批量给机器更新 bios 固件等

    提问:
    大佬们,我目前就是只能想到 ansible ,但是老板希望带 WEB UI 页面操作,但是我只会 python , 难整啊,半路侧开过来得

    52 条回复    2024-06-25 15:07:33 +08:00
    ladypxy
        1
    ladypxy  
       7 天前 via iPhone
    scam/ansubke/puppet
    xustrive
        2
    xustrive  
       7 天前
    100 台机器 这规模不得了。
    mightybruce
        3
    mightybruce  
       7 天前
    1000 台 ansible 也慢。

    还有一些基于 SaltStack 的自动化运维平台 可以看看
    huage
        4
    huage  
       7 天前
    我有一个疑问:有一百台服务器的公司,为什么让你来管?你经验丰富?
    huage
        5
    huage  
       7 天前
    你没经验但是老板信任你,你不是应该找有丰富经验的人组建团队么?难度你没经验也不找人,想从零开始搞?
    xderam
        6
    xderam  
       7 天前
    pssh 一把梭,ansible 入门门槛不低的。如果你的 100-1000 机器标准化的,ansible 给你带来的并不一定有 pssh 有多大效率。还有就是 你没说要不要状态一直保持。有这个需求就上 puppet 之类的。如果没需求,只是平时批量操作一下的话。saltstack 也可以,但也有一些些的门槛。

    老板喜欢 web 就给他弄个 web ,自己干活的时候还是 cli 。这样哪边都不得罪。

    最后 你没说这些机器平时的维护频率 场景等等,另外就是 huage 说的,这种规模不是个团队,最起码也得两个人管了。你们商量下,而且还有各种 oncall 和其它杂七杂八的事。恩。。。别着急, 等你离职的时候再来回复。
    dbak
        7
    dbak  
       7 天前
    国内 jumpserver 、spug 都行
    defunct9
        8
    defunct9  
       7 天前   ❤️ 13
    开 ssh ,让我上去看看
    bluicezhen
        9
    bluicezhen  
       7 天前
    如果是 AWS ,可以选择自建 AMI 镜像,其他云服务商也有类似的服务。
    Sayuri
        10
    Sayuri  
       7 天前
    ansible 2.10 + mitogen
    ctrlmymood
        11
    ctrlmymood  
    OP
       7 天前
    @huage #4 产线躺平,我这边老板想把活抢过来,服务器基本是组装好,固件刷好,极端条件 改一些配置或者部署一些不常用软件,然后检测通过,就卖了,不会长时间维护同一批货
    ctrlmymood
        12
    ctrlmymood  
    OP
       7 天前
    @huage #5 老板的意思 能搞就先搞搞看,要出一定成绩才有机会加人,的确从零开始,因为产线现在工控还是母盘挂载手动装、检
    williamherry
        13
    williamherry  
       7 天前
    ctrlmymood
        14
    ctrlmymood  
    OP
       7 天前
    @xderam 基本就是出厂前的固件、驱动部署、特定软件部署、版本检测,然后过了就卖给客户了,这边侧重点是卖硬件,同批次产品不做长期维护,但这个事肯定是长期重复做+不断提新需求
    ctrlmymood
        15
    ctrlmymood  
    OP
       7 天前
    @defunct9 这几乎不可能,基本内网,也不允许外访或者被外访
    ctrlmymood
        16
    ctrlmymood  
    OP
       7 天前
    因为目前的确是从零开始,我的想法是先把这个事情给做了,后期再优化给老板画饼 ,借鉴各位大佬的建议选择一种干

    我当下思路是:
    pxe 装机,再 ks 文件把所有能办的需求全部写入到一个 shell ,然后 pxe 过程中就把那些事情给办了,不行就放到/etc/profile 里,开机自动检测,有就不装,没有就装,唯一麻烦的收集结果 log 麻烦点
    ghostwwg
        17
    ghostwwg  
       7 天前
    ansible+awx 后者是前者的 webui 。
    sampeng
        18
    sampeng  
       7 天前
    如果是产品化,一个思路:去看 ubuntu 的 iso 怎么做的。打成 iso 。全自动安装。基本做完 iso 扔给工厂就不用管了。如果是脚本或者是工具,100 台。1000 台的时候你做得再好都是各种小事故不断。
    sampeng
        19
    sampeng  
       7 天前
    因为是 iso 了。。工厂或者生产的地方有个 pex 服务器。。只要开机就全自动安装上了。全自动。
    sampeng
        20
    sampeng  
       7 天前
    因为我们就是这么做的。之前就是 ansible.有多痛苦呢?产线的人可不懂命令,然后为了差异化各种参数。产线每生产几台就要找我们排错。非常通过。然后我就琢磨了一个 iso 的方式,这是唯一可解的。研发输出是什么产线做出来就是什么样子。iso 是可以 sum 验证的,只要 iso 本身没做错。和测试的结果是完全一样的。脚本就不一样了。。。

    当然,有非常多的技术细节要处理。但处理完了。以前,我们是天天被产线找。现在,CI 出 iso ,工厂自己去拿 iso ,校验完自己装,都不用他们操作。插上 u 盘启动(不能用 pxe 。。。fuck 。。。)。后面 iso 的安装都是全自动的。现在整个流程都不需要我们参与。
    buerle
        21
    buerle  
       7 天前
    ansible 或者 jenkins 写自动化脚本。 其他的一些 cicd 的应该也可以。
    dog82
        22
    dog82  
       7 天前
    我能想到的是写 ssh 脚本
    bthulu
        23
    bthulu  
       7 天前
    搞无盘系统, 你维护一台机子就行了
    NevadaLi
        24
    NevadaLi  
       7 天前
    @ctrlmymood ansible+awx +1 ,或者上 ansible tower ,都有 gui
    NevadaLi
        25
    NevadaLi  
       7 天前
    @ctrlmymood 监控可以用 checkmk 或者 Prometheus+grafana
    Hopetree
        26
    Hopetree  
       7 天前
    如果要管理,应该要上 CMDB 吧,有 CMDB 就可以通过 agent 批量跑脚本和命令了,1000 个不算啥,一下子跑完。如果不上 CMDB 那应该是 ansible 比较好
    NevadaLi
        27
    NevadaLi  
       7 天前

    checkmk 有 gui
    ugpu
        28
    ugpu  
       7 天前
    OP 的意思来看是卖机器 ISO 吧 ansible 啥的就算了.
    ugpu
        29
    ugpu  
       7 天前
    可以聘用我兼职 来一套 ansible + awx 图形界面 并且配置好. 嘿嘿嘿.
    ugpu
        30
    ugpu  
       7 天前
    上面开玩笑的... 讲道理 ISO. 其他的 学习+ 维护成本太高了.
    ansible 就算你学 时间成本在那 没办法的
    yinxs2003
        31
    yinxs2003  
       7 天前
    python 写个客户端,这个客户端就是 web 服务,把客户端部署到你需要监控的机器上,根据 url 进行执行安装命令就行了,顺便还能收集机器运行参数,感觉不用上面各位说的那些包什么的
    yinxs2003
        32
    yinxs2003  
       7 天前
    再写个 server 端下发命令就行了
    @yinxs2003
    aru
        33
    aru  
       7 天前
    直接 DD 就好了,自己维护一个源盘
    yinxs2003
        34
    yinxs2003  
       7 天前
    收集完参数还能生成报表,老板们最喜欢看报表了
    x86
        35
    x86  
       7 天前
    搞那么快做啥,慢慢整摸鱼不舒服吗
    dode
        36
    dode  
       7 天前
    多搞几个控制节点,并行处理
    Hopetree
        37
    Hopetree  
       7 天前
    你需要的是这种产品,有 CMDB 的管理平台
    ![]( https://tendcode.com/cdn/2024/04/202406201722810.png)
    baizhu
        38
    baizhu  
       7 天前
    看来用 ansible + awx 的不少哇
    sampeng
        39
    sampeng  
       6 天前
    @ugpu 卖机器,iso 是唯一解。ansible 是机器在自己手上维护。这么多楼都还在说 ansible+awx 。。。。卖出去的机器就是一锤子买卖
    elboble
        40
    elboble  
       6 天前 via Android
    没人提 ansible
    corvofeng
        41
    corvofeng  
       6 天前
    如果能连公网可以考虑 aws ssm 来管理 不能连的话可以考虑下腾讯的 blueking 仅建议
    lucky85984
        42
    lucky85984  
       6 天前
    都有 web 了还要你动手吗,坚决不给做
    ctrlmymood
        43
    ctrlmymood  
    OP
       6 天前
    @NevadaLi #24 thank you!
    ctrlmymood
        44
    ctrlmymood  
    OP
       6 天前
    @sampeng #18 不会制作 ISO ,老哥有没有推荐的网址供学习下,另外要搞国产系统,比如麒麟
    ctrlmymood
        45
    ctrlmymood  
    OP
       6 天前
    老哥是内存装特制系统吗? 这块有学习资料吗?以前搞过 openstack ironic ,但是镜像都是开发给的,现在这边没这种能力的开发,唉
    ctrlmymood
        46
    ctrlmymood  
    OP
       6 天前
    @ugpu #29 主要卖机器,但是现在上面的想法多了,主要是生意大了,小问题不断,领导们希望从产线把控质量检测这块,然后又走到自动化这块,
    成本卡的很死
    ctrlmymood
        47
    ctrlmymood  
    OP
       6 天前
    @Hopetree #37 老铁 ,大老板就喜欢这种,但是我理解这个一般需要定制开发,公司请不起,暂时也不想请
    ctrlmymood
        48
    ctrlmymood  
    OP
       6 天前
    @bthulu 老哥是内存装特制系统吗? 这块有学习资料吗?以前搞过 openstack ironic ,但是镜像都是开发给的,现在这边没这种能力的开发,唉
    duanxianze
        49
    duanxianze  
       6 天前
    这么大的规模就一个人搞嘛?不至于把?
    sampeng
        50
    sampeng  
       6 天前
    @ctrlmymood 只能说给了你思路。需要的就是你自己查资料了。看你回复都是直接伸手要。
    前面还有更简单的,dd 大法,以前做一个产品要生产上万的设备。只有 dd 大法是唯一解的。不过当时是系统盘不在 raid 上。有个母盘,买个硬盘拷贝器。一天生产上万机器都没问题。只要保护和做好母盘就完事了。这个只有是系统盘没有 raid 的情况。还有系统安装,数据初始化,很多工作也是要提前在系统里面做好的。也不容易。

    要想把一个事做完美是肯定要投入精力和查资料的能力的。
    给个思路吧,如果是 iso 路线
    1.iso 是怎么得到的,ubuntu 怎么做打包的。麒麟是怎么做打包的到的,只要是开源的你没找到说明找的方式不对
    2.打包的时候要处理哪些业务问题,能不能在打包过程中解决,产品怎么打进 iso 里面。这是第一步做到后才能考虑的第二步。
    3.打包自动化怎么做。有没有不变的部分。不可能自己电脑上打包。

    如果是 DD 路线:
    1.做好母系统,也就是系统在安装完之后,没有数据初始化时的状态。
    2.数据初始化怎么做?在哪一步做,初始化后怎么检查所有安装都是可靠的和靠谱的

    这条路是如果是产品化卖机器给别人,还想把质量做好唯一解。ansible 不是不可以。就等着每天救火吧。



    @duanxianze 我就一个人搞。。也就 1 个月的功夫。。。
    chilaoqi
        51
    chilaoqi  
       6 天前
    1Panel 年底支持多主机版本了。

    如果你这个软件可以上它的应用市场(或者自定义市场),我是不是理解为就可以了。
    顺带帮一个来我们公司的美女销售发一下推荐码,做的确实不错。

    https://imgur.com/a/tdrCza4
    apeo1115
        52
    apeo1115  
       2 天前
    有需要云服务费的发票的吗?腾讯云的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3566 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 10:29 · PVG 18:29 · LAX 03:29 · JFK 06:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.