Location
Beijing
Posted
June 27, 2026
Commute
Local Area
Local Opportunity Near You!
This job is in your area. Enjoy a short commute and work close to home.
Job Description
混元大模型后训练算法工程师/专家-角色扮演&文本创作 北京 分享 1.后训练数据全链路研发:负责大模型后训练(SFT+RL)阶段面向线上核心场景的数据全链路研发,覆盖角色扮演、开放域对话、文本创作、知识问答、逻辑推理、理科解题、Memory等高优场景,针对各场景特性设计并落地覆盖数据生产、自动化质检与定向修复的端到端方案,确保数据在人设一致性、对话自然度、创作质量、事实准确性、推理严谨性、记忆连贯性等维度的稳定、高标准交付;
2.评测驱动的数据与训练链路优化:主导面向线上核心场景的评测体系建设,设计并落地覆盖多场景的 Rubrics 评分标准与自动化评测 pipeline;以评测结果为核心抓手,系统性诊断模型在各场景下的能力短板与失败模式,驱动上游数据调优(数据增补、清洗、重采样)与训练算法及链路的针对性改进(SFT 数据配比、RL reward 信号校准、训练策略迭代等),形成评测定位问题 → 归因分析 → 数据/算法定向优化 → 效果验证闭环的持续迭代飞轮;
3.前沿数据技术研究与落地:深度追踪并研究支撑大模型后训练与线上场景能力提升的前沿数据技术,重点关注多轮对话数据构建、角色人设注入与一致性保持、知识增强与事实性校验、复杂推理链数据生成、长程记忆与上下文管理、Rubric-based Evaluation、自动化质检与错误归因修复等方向,能够将最新数据方法快速转化为业务价值,持续驱动模型在各线上核心场景下的能力演进。 岗位要求 1.计算机科学、人工智能或相关专业硕士及以上学历,深入理解 Transformer 架构及 LLM 训练原理,能针对 SFT、RLHF/DPO 等后训练场景设计并落地高标准数据方案;
2.在以下一个或多个方向有深入实践经验:角色扮演/开放域对话数据构建与多轮一致性优化、文本创作数据质量提升、知识问答事实性校验、推理与理科数据的正确性验证、长程记忆数据设计等;具备 Rubrics 评价体系的设...
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 TEG 点击了解更多BG信息 技术 两年以上工作经验 更新于年06月26日 岗位职责2.评测驱动的数据与训练链路优化:主导面向线上核心场景的评测体系建设,设计并落地覆盖多场景的 Rubrics 评分标准与自动化评测 pipeline;以评测结果为核心抓手,系统性诊断模型在各场景下的能力短板与失败模式,驱动上游数据调优(数据增补、清洗、重采样)与训练算法及链路的针对性改进(SFT 数据配比、RL reward 信号校准、训练策略迭代等),形成评测定位问题 → 归因分析 → 数据/算法定向优化 → 效果验证闭环的持续迭代飞轮;
3.前沿数据技术研究与落地:深度追踪并研究支撑大模型后训练与线上场景能力提升的前沿数据技术,重点关注多轮对话数据构建、角色人设注入与一致性保持、知识增强与事实性校验、复杂推理链数据生成、长程记忆与上下文管理、Rubric-based Evaluation、自动化质检与错误归因修复等方向,能够将最新数据方法快速转化为业务价值,持续驱动模型在各线上核心场景下的能力演进。
2.在以下一个或多个方向有深入实践经验:角色扮演/开放域对话数据构建与多轮一致性优化、文本创作数据质量提升、知识问答事实性校验、推理与理科数据的正确性验证、长程记忆数据设计等;具备 Rubrics 评价体系的设...