📍 Local Job Near You

大模型算法工程师-Agent 应用与强化学习方向 (JR2026010600Q)

🏢

DiDi

📍 Beijing, China

📍

Location Beijing

📅

Posted June 17, 2026

🚗

Commute Local Area

🎯

Local Opportunity Near You!

This job is in your area. Enjoy a short commute and work close to home.

📋
Job Description

                    职位描述1、参与司机智能助手相关的大模型 Agent 设计与应用，构建包含意图识别、复杂任务拆解、多步推理、ReAct 工具调用、长短期记忆及智能推荐在内的完整链路；
2、运用 SFT、RL 等后训练方法训练强化垂域模型，提升大模型的多步推理、上下文遵循、ReAct 工具调用、领域问答等能力；
3、基于数据反馈构建高质量训练数据，设计奖励函数与优化机制，提升模型在垂直领域的泛化能力，利用 PPO/GRPO 等算法建设基于强化学习的迭代路径；
4、跟踪 LLM 与 Agent 领域的国际前沿技术（如多智能体协作、Long Context、CoT），推动前沿技术在业务中的应用落地；
5、深度理解网约车业务，沉淀通用、模块化的算法能力，与产品、工程紧密沟通协作，推动业务迭代。
任职要求
任职要求
1、计算机、人工智能等相关专业，具备扎实的数据结构与算法基础；
2、具备扎实的 Python 编程能力，熟练掌握 PyTorch 等深度学习框架，有优秀的代码规范与工程素养；
3、熟悉 LLM 训练全流程（Pre-train/CPT/SFT/RLHF），熟练使用主流训练/推理框架（如 Megatron-LM、DeepSpeed、vLLM、Sglang 等）；
4、深入理解强化学习原理，熟悉 PPO、DPO、GRPO 等算法基本原理，熟悉基于 RLVR 的强化学习训练者优先；
5、具备敏锐的技术视野，能够将前沿算法与复杂的业务相结合，产出实际价值；
6、具备良好的沟通协作能力，工作积极主动，具备较强的学习能力，可快速验证新想法，推动技术进步。
加分项
1、主导过基于 ReAct/Function Call 的 Agent 生产级应用开发；
2、在大规模模型训练中有数据合成或强化学习训练的实战经验；
3、在 AI 领域国际顶级会议或期刊作为核心贡献者有学术成果；
4、在开源社区发布过有一定影响力的项目。

Apply for This Job

Submit Application

Quick and secure application process

📍 Location Details

🌆

City

Beijing

🗺️

Country

China

🚗

Commute

Local Area

🔍 More Jobs Nearby

Explore other opportunities in Beijing

View Local Jobs

大模型算法工程师-Agent 应用与强化学习方向 (JR2026010600Q)

📋 Job Description

Apply for This Job

📍 Location Details

🔍 More Jobs Nearby

📋
Job Description