Location
Beijing
Posted
June 25, 2026
Commute
Local Area
Local Opportunity Near You!
This job is in your area. Enjoy a short commute and work close to home.
Job Description
大模型训练性能优化工程师(训练算子)(深圳/北京/上海/杭州) 北京 分享 在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。 岗位职责 1.负责深度学习训练相关算子的设计、实现与优化( CUDA/CUTLASS/Triton );
2.面向大模型训练场景,对算子进行端到端性能分析与调优,持续挖掘吞吐、延迟、显存利用率等指标的优化空间;
3.参与或主导 3D 并行(Data / Tensor / Pipeline Parallel 等)训练体系下的算子与通信方案设计与优化;
4.与分布式训练、系统、模型算法团队密切协作,共同提升大规模训练任务的整体效率与稳定性;
5.跟踪业界前沿的硬件架构与系统软件(GPU 架构、网络、编译器、库等),将最新技术转化为实际性能收益。 岗位要求 1.计算机、软件工程、数学、电子信息、自动化等相关专业,本科及以上学历;
2.扎实的编程基础,熟练使用 C/C++,对代码质量与工程实践有较高要求;
3.熟练掌握 GPU 编程,有实际 CUDA 开发经验;熟悉 CUTLASS、Triton 等任一或多种算子开发/优化框架;
4.熟悉并行计算原理,对 GPU 体系结构(SM、Warp、Memory Hierarchy、Occupancy 等)有较深入理解;
5.对 3D 并行训练(如数据并行、模型并行、流水并行、混合并行等)有实践经验,能够理解并分析其对算子与通信模式的影响;
6.具备良好的问题定位与性能分析能力,能熟练使用 Nsight、nvprof、perf 等性能分析工具进行瓶颈分析和优化。 加分项 1....
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 TEG 点击了解更多BG信息 技术 两年以上工作经验 更新于年06月25日2.面向大模型训练场景,对算子进行端到端性能分析与调优,持续挖掘吞吐、延迟、显存利用率等指标的优化空间;
3.参与或主导 3D 并行(Data / Tensor / Pipeline Parallel 等)训练体系下的算子与通信方案设计与优化;
4.与分布式训练、系统、模型算法团队密切协作,共同提升大规模训练任务的整体效率与稳定性;
5.跟踪业界前沿的硬件架构与系统软件(GPU 架构、网络、编译器、库等),将最新技术转化为实际性能收益。
2.扎实的编程基础,熟练使用 C/C++,对代码质量与工程实践有较高要求;
3.熟练掌握 GPU 编程,有实际 CUDA 开发经验;熟悉 CUTLASS、Triton 等任一或多种算子开发/优化框架;
4.熟悉并行计算原理,对 GPU 体系结构(SM、Warp、Memory Hierarchy、Occupancy 等)有较深入理解;
5.对 3D 并行训练(如数据并行、模型并行、流水并行、混合并行等)有实践经验,能够理解并分析其对算子与通信模式的影响;
6.具备良好的问题定位与性能分析能力,能熟练使用 Nsight、nvprof、perf 等性能分析工具进行瓶颈分析和优化。