Location
Beijing
Posted
June 20, 2026
Commute
Local Area
Local Opportunity Near You!
This job is in your area. Enjoy a short commute and work close to home.
Job Description
混元训练 Infra 工程师-Dataloader/Checkpoint 方向-(北京/深圳/上海/杭州) 北京 分享 1.分布式 Dataloader:多源数据加载框架研发,优化预处理流水线、IO 瓶颈与数据倾斜,对接对象存储 / 分布式文件系统,支持动态采样与增量更新;;
2.Checkpoint 管理:设计高吞吐存储 / 加载方案,优化压缩、分片与冷热分层,实现版本管理、备份恢复与分布式训练框架兼容;;
3.系统优化:监控吞吐 / 延迟 / 显存指标,定位性能瓶颈,保障极端场景下训练连续性;;
4.跨团队协作:对齐业务需求,沉淀技术最佳实践。。 岗位要求 1.本科及以上学历,3 年 + AI Infra / 分布式系统 / HPC 经验;;
2.精通 Python/C++,深入理解 Linux 内核、IO 模型,熟悉 PyTorch(优先)及分布式训练原理;;
3.有分布式 Dataloader 研发与 IO 密集型任务优化相关经验;;
4.有 checkpoint 存储 / 加载 / 压缩优化相关经验;;
5.熟悉对象存储 / 分布式文件系统与缓存、分片策略;;
6.具备系统性能瓶颈分析与 GPU/CPU 优化案例。
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 TEG 点击了解更多BG信息 技术 一年以上工作经验 更新于年06月10日 岗位职责2.Checkpoint 管理:设计高吞吐存储 / 加载方案,优化压缩、分片与冷热分层,实现版本管理、备份恢复与分布式训练框架兼容;;
3.系统优化:监控吞吐 / 延迟 / 显存指标,定位性能瓶颈,保障极端场景下训练连续性;;
4.跨团队协作:对齐业务需求,沉淀技术最佳实践。。
2.精通 Python/C++,深入理解 Linux 内核、IO 模型,熟悉 PyTorch(优先)及分布式训练原理;;
3.有分布式 Dataloader 研发与 IO 密集型任务优化相关经验;;
4.有 checkpoint 存储 / 加载 / 压缩优化相关经验;;
5.熟悉对象存储 / 分布式文件系统与缓存、分片策略;;
6.具备系统性能瓶颈分析与 GPU/CPU 优化案例。