多模态工程师
2-3.5万元/月多模态工程师
工作地点:北京
岗位职责:
1.核心算法研发:负责多模态(图像、文本、视频、音频等)前沿算法的研究与开发,包括但不限于多模态理解、跨模态检索、视觉问答(VQA,Visual Question Answering)、图文生成、视频理解等方向。
2.模型设计与训练:设计并优化多模态大模型架构(如基于Transformer、ViT、CLIP、Flamingo等衍生架构),进行大规模数据清洗、预处理及模型预训练、微调(SFT,Supervised Fine-Tuning)和对齐(RLHF,基于人类反馈的强化学习)。
3.业务场景落地:将多模态模型能力应用于实际业务场景,如医疗医药相关数据和文件的多模态处理、包括但不限于图片、表格、视频、音频等内容的解析和提取,多模态内容生成(图生文/文生图/文生视频)、多媒体内容审核、跨模态数据挖掘等,解决业务中的复杂认知智能问题。
4.工程化与部署:负责模型的压缩、量化、推理加速,并在云端或端侧进行高效部署,保障模型在工业级场景下的高可用、低延迟和高并发。
5.技术探索与创新:跟踪多模态领域国际前沿技术(如GPT-4V、Gemini、Sora等背后的技术原理),进行技术复现与创新,发表高质量论文或申请专利,保持团队技术的行业领先性。
任职要求:
1.资历背景:35岁以内,计算机科学、人工智能、模式识别、数学、自动化等相关专业本科及以上学历(博士优先,985/211特别优秀的本科生亦可考虑)。
2.算法基础:扎实的机器学习/深度学习理论基础,熟悉常见的网络结构(CNN,卷积神经网络/RNN,循环神经网络/Transformer)和多模态融合技术(Attention机制、跨模态交互等)。
3.多模态经验:5年以上多模态相关领域(如视觉语言模型VLM、图文检索、图文生成、视频理解等)的算法研发经验。
4.编程能力:精通Python,熟悉Linux开发环境;熟练掌握至少一种主流深度学习框架(PyTorch优先,TensorFlow/JAX亦可)。
5.工程能力:熟悉模型训练全流程,具备大规模数据处理能力;熟悉模型部署工具(如ONNX,开放神经网络交换格式/TensorRT/vLLM等)者优先;有分布式训练(DeepSpeed/Megatron)经验者优先。
6.文献阅读:具备优秀的英文文献阅读和复现能力,能够快速跟进学术界和工业界的最新研究成果(如CVPR/ICCV/ECCV/NeurIPS/ACL/ICML等顶会论文)。
团队协作:具备良好的团队合作精神和沟通能力,能够与产品、工程团队紧密协作,推动算法落地。
【加分项】
1.在计算机视觉、自然语言处理、多模态领域顶会(CVPR/ICCV/ECCV/NeurIPS/ACL/ICML等)发表过论文者优先。
2.有大规模多模态预训练模型(如CLIP、ALBEF、BEiT、Flamingo、LLaVA等)的实际训练或微调经验者优先。
3.有AIGC相关经验(如Stable Diffusion、ControlNet、Sora等文生图/视频技术)者优先。
4.有Kaggle/天池等知名算法竞赛获奖经历者优先。
5.有开源项目贡献者优先。