This job is in your area. Enjoy a short commute and work close to home.
Job Description
1、负责稳定性体系与报警感知能力建设,搭建高可用的故障监控、告警收敛、根因定位体系,优化告警策略与感知链路,提升系统故障发现与响应效率,保障业务全链路稳定性;
2、主导流量回放平台的研发与迭代,实现生产流量的精准录制、脱敏、回放,支撑业务变更、版本上线前的稳定性验证,解决复杂场景下的回归测试难题,提升测试效率与覆盖度;
3、负责全链路压测平台的设计与开发,搭建分布式高并发压测能力,支持多场景、多协议的压测任务调度、流量模拟、容量评估,输出系统性能瓶颈与容量规划建议,保障大促 / 高流量场景下系统平稳运行;
4、联动业务、架构、SRE 团队,深入理解业务链路与技术架构,落地稳定性保障最佳实践,推动压测、流量回放能力在业务侧的规模化应用,解决实际生产中的性能、稳定性问题;
5、持续探索稳定性领域前沿技术,如混沌工程、智能告警、流量智能调度等,迭代优化平台能力,提升稳定性保障的自动化、智能化水平。
任职要求
1、本科及以上学历,计算机相关专业,2 年及以上后端研发经验,扎实掌握 Go/Java 至少一门编程语言,熟悉分布式系统原理;
2、熟悉微服务架构、常用中间件(Redis/Kafka/MQ 等),了解主流监控(Prometheus/Grafana/ELK)、压测(JMeter/Locust/PTS)、流量回放相关工具的原理与使用;
3、具备良好的问题分析与解决能力,能快速定位并解决生产环境中的性能、稳定性问题,有高并发、大流量场景技术保障经验者优先;
4、具备良好的需求理解、方案设计能力,注重代码质量与工程规范,有跨团队协作经验,沟通高效、责任心强;
5、对技术有热情,乐于探索新领域,具备较强的学习能力和落地能力,有开源项目贡献或稳定性领域技术沉淀者优先。