📍 Jobs Near Me
📍

HiringNearMe.work

Local Jobs, Zero Commute

📍 Local Job Near You

大模型算法工程师-Agent 应用与强化学习方向 (JR2026010600Q)

🏢
DiDi
📍 Beijing, China
📍
Location Beijing
📅
Posted June 17, 2026
🚗
Commute Local Area
🎯
Local Opportunity Near You!

This job is in your area. Enjoy a short commute and work close to home.

📋
Job Description

职位描述

1、参与司机智能助手相关的大模型 Agent 设计与应用,构建包含意图识别、复杂任务拆解、多步推理、ReAct 工具调用、长短期记忆及智能推荐在内的完整链路;

2、运用 SFT、RL 等后训练方法训练强化垂域模型,提升大模型的多步推理、上下文遵循、ReAct 工具调用、领域问答等能力;

3、基于数据反馈构建高质量训练数据,设计奖励函数与优化机制,提升模型在垂直领域的泛化能力,利用 PPO/GRPO 等算法建设基于强化学习的迭代路径;

4、跟踪 LLM 与 Agent 领域的国际前沿技术(如多智能体协作、Long Context、CoT),推动前沿技术在业务中的应用落地;

5、深度理解网约车业务,沉淀通用、模块化的算法能力,与产品、工程紧密沟通协作,推动业务迭代。

任职要求

任职要求

1、计算机、人工智能等相关专业,具备扎实的数据结构与算法基础;

2、具备扎实的 Python 编程能力,熟练掌握 PyTorch 等深度学习框架,有优秀的代码规范与工程素养;

3、熟悉 LLM 训练全流程(Pre-train/CPT/SFT/RLHF),熟练使用主流训练/推理框架(如 Megatron-LM、DeepSpeed、vLLM、Sglang 等);

4、深入理解强化学习原理,熟悉 PPO、DPO、GRPO 等算法基本原理,熟悉基于 RLVR 的强化学习训练者优先;

5、具备敏锐的技术视野,能够将前沿算法与复杂的业务相结合,产出实际价值;

6、具备良好的沟通协作能力,工作积极主动,具备较强的学习能力,可快速验证新想法,推动技术进步。

加分项

1、主导过基于 ReAct/Function Call 的 Agent 生产级应用开发;

2、在大规模模型训练中有数据合成或强化学习训练的实战经验;

3、在 AI 领域国际顶级会议或期刊作为核心贡献者有学术成果;

4、在开源社区发布过有一定影响力的项目。

Apply for This Job

Submit Application

Quick and secure application process

📍 Location Details

🌆
City
Beijing
🗺️
Country
China
🚗
Commute
Local Area

🔍 More Jobs Nearby

Explore other opportunities in Beijing

View Local Jobs