📍 Jobs Near Me
📍

HiringNearMe.work

Local Jobs, Zero Commute

📍 Local Job Near You

混元大模型Infra稳定性研发工程师(深圳/北京/上海/杭州)

🏢
Tencent
📍 Shenzhen, China
📍
Location Shenzhen
📅
Posted June 27, 2026
🚗
Commute Local Area
🎯
Local Opportunity Near You!

This job is in your area. Enjoy a short commute and work close to home.

📋
Job Description

混元大模型Infra稳定性研发工程师(深圳/北京/上海/杭州) 深圳 分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 TEG 点击了解更多BG信息 技术 一年以上工作经验 更新于年06月05日
  • 在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
  • 岗位职责
  • 1.负责混元infra相关链路稳定性治理、规范建设;
    2.联动框架、算力、网络各模块完善关键metric采集;
    3.系统性构建故障节点、慢节点检测平台化能力;
    4.联合混元一站式建设统一的任务自动续训能力;
    5.响应并解决日常混元大模型任务的故障问题。
  • 岗位要求
  • 1.熟悉Megatron/PyTorch等框架的基本的训练流程;
    2.掌握GPU/NPU等工作原理、常见操作命令;
    3.熟悉RDMA网络相关硬件特性、熟悉all2all、allGather等集合通信原理;
    4.了解docker容器、存储挂载等基础知识;
    5.有大规模任务系统故障排查、分析解决经验者优先;
    6.良好沟通、团队协作能力。
  • Apply for This Job

    Submit Application

    Quick and secure application process

    📍 Location Details

    🌆
    City
    Shenzhen
    🗺️
    Country
    China
    🚗
    Commute
    Local Area

    🔍 More Jobs Nearby

    Explore other opportunities in Shenzhen

    View Local Jobs