岗位职责
1.VTLA 闭环策略优化:研究如何利用强化学习(RL)微调或优化 VTLA 大模型,使模型不仅具备高级语义理解能力,且能在真机上实现高精度的动作执行与物理反馈闭环。
2.真机强化学习训练:负责在真实机器人平台上设计并实施 RL 训练方案,通过真机数据迭代提升 VTLA 模型在复杂、非结构化环境下的泛化能力与鲁棒性。
3.多模态反馈对齐:利用真机运行中的触觉(Tactile)、视觉及运动状态数据,通过 RL 算法优化模型对物理世界的感知对齐,解决大模型在物理交互中的灵巧操作难题。
4.奖励函数与策略对齐:针对 VTLA 的长程任务(Long-horizon tasks),设计高效的奖励函数,引导模型学习符合物理直觉的交互行为。
5.前沿技术转化:探索基础模型与 RL 结合的最新技术,推动其在真机任务中的表现超越传统模仿学习方法。
任职要求
1.专业背景:人工智能、计算机、机器人、控制工程等相关专业,博士或硕士优先。
2.算法能力:深刻理解强化学习核心算法(PPO, TD3 等),同时熟悉大语言模型(LLM)或多模态大模型(VLM/VLA)的训练逻辑。
3.机器人经验:具备扎实的机器人运动学、动力学基础,能够处理真机实验中的延迟、噪声及硬件非线性特性。
4.工程实践:精通 Python 与 PyTorch,熟悉主流 RL 框架,具备良好的分布式训练与真机部署工程经验。
5.数据敏感度:能够分析真机 RL 过程中的数据分布偏差,并提出针对性的数据增强或策略纠偏方案。
6.极强的解决问题能力:能够忍受真机调优的枯燥与挑战,具备通过实验现象快速定位算法/系统问题的洞察力。
加分项:
1.触觉算法经验:有触觉传感器与 RL 结合的项目经验,熟悉触觉特征在 VTLA 中的融合策略。
2.VLA 实战经历:参与过具身大模型的研究或真机复现。
3.学术成果:在机器人、RL 或计算机视觉顶会(CoRL, ICRA, IROS, RSS, NeurIPS)发表过关于“真机 RL”或“具身大模型”的高质量论文。
4.前沿生产力工具:熟练使用 Claude Code, Codex, Cursor 等工具进行高效代码开发与系统构建。
简历投递邮箱:hr@neoteai.com