您当前的位置：首页 > 职位列表 > 职位详情

多模态工程师

2-3.5万元/月

投递简历

北京-海淀区

3-5年语音算法 · 多模态算法 Python · Java 深度学习 · 机器学习 · 大模型算法 · 强化学习算法工程化经验 · 优秀开源项目经历

2026-04-27 13:02:08 更新被浏览：534 次

重庆卓荦人力资源管理有限公司

最近在线时间：2026-04-27 13:02:08

电话：152********

地址：重庆市渝北区龙溪街道新溉大道18号国宾城12幢18-8

职位描述

多模态工程师
工作地点：北京
岗位职责：
1.核心算法研发：负责多模态（图像、文本、视频、音频等）前沿算法的研究与开发，包括但不限于多模态理解、跨模态检索、视觉问答（VQA，Visual Question Answering）、图文生成、视频理解等方向。
2.模型设计与训练：设计并优化多模态大模型架构（如基于Transformer、ViT、CLIP、Flamingo等衍生架构），进行大规模数据清洗、预处理及模型预训练、微调（SFT，Supervised Fine-Tuning）和对齐（RLHF，基于人类反馈的强化学习）。
3.业务场景落地：将多模态模型能力应用于实际业务场景，如医疗医药相关数据和文件的多模态处理、包括但不限于图片、表格、视频、音频等内容的解析和提取，多模态内容生成（图生文/文生图/文生视频）、多媒体内容审核、跨模态数据挖掘等，解决业务中的复杂认知智能问题。
4.工程化与部署：负责模型的压缩、量化、推理加速，并在云端或端侧进行高效部署，保障模型在工业级场景下的高可用、低延迟和高并发。
5.技术探索与创新：跟踪多模态领域国际前沿技术（如GPT-4V、Gemini、Sora等背后的技术原理），进行技术复现与创新，发表高质量论文或申请专利，保持团队技术的行业领先性。
任职要求：
1.资历背景：35岁以内，计算机科学、人工智能、模式识别、数学、自动化等相关专业本科及以上学历（博士优先，985/211特别优秀的本科生亦可考虑）。
2.算法基础：扎实的机器学习/深度学习理论基础，熟悉常见的网络结构（CNN，卷积神经网络/RNN，循环神经网络/Transformer）和多模态融合技术（Attention机制、跨模态交互等）。
3.多模态经验：5年以上多模态相关领域（如视觉语言模型VLM、图文检索、图文生成、视频理解等）的算法研发经验。
4.编程能力：精通Python，熟悉Linux开发环境；熟练掌握至少一种主流深度学习框架（PyTorch优先，TensorFlow/JAX亦可）。
5.工程能力：熟悉模型训练全流程，具备大规模数据处理能力；熟悉模型部署工具（如ONNX，开放神经网络交换格式/TensorRT/vLLM等）者优先；有分布式训练（DeepSpeed/Megatron）经验者优先。
6.文献阅读：具备优秀的英文文献阅读和复现能力，能够快速跟进学术界和工业界的最新研究成果（如CVPR/ICCV/ECCV/NeurIPS/ACL/ICML等顶会论文）。
团队协作：具备良好的团队合作精神和沟通能力，能够与产品、工程团队紧密协作，推动算法落地。

【加分项】
1.在计算机视觉、自然语言处理、多模态领域顶会（CVPR/ICCV/ECCV/NeurIPS/ACL/ICML等）发表过论文者优先。
2.有大规模多模态预训练模型（如CLIP、ALBEF、BEiT、Flamingo、LLaVA等）的实际训练或微调经验者优先。
3.有AIGC相关经验（如Stable Diffusion、ControlNet、Sora等文生图/视频技术）者优先。
4.有Kaggle/天池等知名算法竞赛获奖经历者优先。
5.有开源项目贡献者优先。