负责高可用体系建设,如故障自动定位、自动恢复、自适应容灾等,保障业务持续可用;
负责双十一等重大活动保障,保障海量峰值下用户体验丝般顺滑,同时确保成本可控;
负责基础设施领域新技术探索及落地,如资源调度、存储计算分离、离在线混部等。
3 年以上的大规模集群实战运维经验,熟悉软件开发和系统架构,掌握 Java、Python、C/C++中的至少一门编程语言,具有开源项目开发经验者优先;
系统工程能力扎实过硬,深入了解系统( Linux )及上下游链路服务(网络 /IO 等),具有很强技术敏感度和故障排查经验,并能进行技术方案的整合;
熟悉服务管理、单元部署、自动扩容等运维系统建设,对成本控制和效能提升有深刻的理解和实践;
具有良好的团队协作、沟通能力,乐于分享,良好的客户服务意识;
良好的外语沟通能力,具备海外工作经验者优先。
地点:杭州、成都