Location
Beijing
Posted
June 17, 2026
Commute
Local Area
Local Opportunity Near You!
This job is in your area. Enjoy a short commute and work close to home.
Job Description
职位描述
1、负责滴滴数据中心服务器&操作系统运维保障工作,保障服务器产品稳定性。
2、参与嘀嘀数万级服务器运维体系的设计和研发,提升服务器运维管理效率。
3、参与服务器运维平台、监控平台等系统的设计和研发,保障服务器稳定运行;
4、负责GPU/异构计算服务器单机与集群的性能评测及调优,分析和优化性能瓶颈;
5、参与GPU/异构计算故障在数据中心的监控、诊断与处理。
任职要求
1. 本科及以上学历,计算机相关专业,5年及以上互联网行业服务器运维经验。
2. 精通X86架构服务器运维,熟悉ARM架构服务器原理及部署运维流程,了解主流服务器厂商产品特性及硬件组成。
3. 精通GPU服务器运维,熟悉NVIDIA GPU架构、驱动安装及优化,掌握NCCL等GPU通信协议,了解IB/RoCE高速网络技术,具备一定的GPU集群性能调优及故障排查能力
4. 熟悉国产硬件的适配与运维,了解国产服务器硬件结构及常见故障处理方法,具备国产化硬件导入落地经验者优先
5. 精通Linux操作系统(CentOS/欧拉),深入理解文件系统、网络协议、硬件协议,具备较强的性能问题分析与解决能力。
6. 有良好、全面的计算机软硬件知识,对CPU、GPU、网卡、内存、SSD、储存等相关技术有较深入的研究
7. 具备基础的Shell或Python脚本编写能力,能处理日常运维自动化任务;