您当前的位置: 首页 > 职位列表 > 职位详情

智算中心运维专家(原厂)

1.5-2.5万元/月
投递简历
浙江-杭州
5-10年 数据中心运维 · AI · HPC · 智算中心 · GPU服务器、无损网络
2025-12-17 11:14:46 更新 被浏览:74 次
新华三技术有限公司
最近在线时间:2025-12-17 11:14:46
电话:156********
地址:杭州市滨江区长河路466号
职位描述

岗位职责
1、负责智算中心GPU服务器及集群、高性能存储系统、IB/RoCE等高速网络基础设施的7x24小时运行状态监控与日常维护,保障核心系统稳定可靠。
2、制定并落实标准化的运维操作规范(SOP)、应急响应预案(EOP)以及灾备恢复机制,确保系统可用性达到99.99%。
3、持续跟踪集群关键性能指标(如GPU使用率、网络吞吐、存储IOPS等),识别性能瓶颈,设计并落地优化策略,提升资源整体利用效率。
4、为内部业务单元及重点客户提供高水平技术支持,协助定位并解决复杂技术问题。
5、推进智算中心运维体系向标准化、自动化和智能化方向演进,持续优化运维服务管理流程。

岗位要求
1、计算机科学、通信工程或相关专业本科及以上学历。
2、具备5年以上数据中心运维工作经验,其中至少2年专注于AI/HPC(高性能计算)或智算中心领域运维实践。
3、掌握网络核心技术,深入理解TCP/IP协议栈,具备InfiniBand、RoCE等高性能网络的实际运维与故障排查能力。
4、了解GPU技术原理,熟悉NVIDIAGPU架构,熟练完成驱动、CUDA环境、容器化方案(如NVIDIADocker)的部署配置,并掌握DCGM、nvidia-smi等性能监控工具。
5、熟悉主流分布式存储系统(如Ceph、Lustre、GPFS等)的架构设计与运维管理。
6、掌握AI硬件及网络性能测试方法,具备NCCL测试实战经验,熟悉智算集群常见性能调优方式。
7、精通集群管理技术,熟练使用至少一种主流集群管理或作业调度系统(如Slurm、Kubernetes/k8s、OpenPBS/Torque),了解其在AI训练与推理场景中的应用优化。
8、熟练运用至少一种脚本语言(如Shell、Python、Go),能独立开发自动化脚本与工具;有Ansible、SaltStack、Terraform等自动化配置管理工具使用经验。
9、获得华为HCIE-AI、RHCE/RHCA、CKA、NVIDIA等相关认证者优先考虑,具备大模型训练集群或混合云智算平台运维经验者更佳。

求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
该公司的其他职位
客户解决方案经理
1.5-2万元/月
浙江-杭州
2025-12-17 13:20:43
投递简历
高级软件开发工程师
1.7-2万元/月
浙江-杭州
2025-12-17 13:05:07
投递简历
测试工程师(河南农信社项目)
9000-12000元/月
河南-郑州
2025-12-17 12:16:10
投递简历
资深服务器BMC/BIOS固件测试工程师
1.5-2万元/月
浙江-杭州
2025-12-17 11:56:34
投递简历
AI网络技术专家
10-14万元/月
浙江-杭州
2025-12-17 11:18:15
投递简历
硬件测试工程师
1.5-2.5万元/月
浙江-杭州
2025-12-17 11:14:46
投递简历
PMO项目交维经理
1.5-2万元/月
浙江-杭州
2025-12-17 11:14:16
投递简历
java开发工程师(金融项目)
1.1-1.7万元/月
浙江-杭州
2025-12-17 11:14:14
投递简历
服务产品经理
1-1.5万元/月
浙江-杭州
2025-12-17 11:12:34
投递简历
硬件测试工程师
1-1.5万元/月
浙江-杭州
2025-12-17 11:10:33
投递简历
您可能感兴趣的职位 搜索更多相似职位 >
推荐企业 职位专题
新华三技术有限公司
公司主页 >
微信求职找工作
手机扫一扫
手机扫一扫
随时随地找工作

海量高薪岗位在线免费直招 招聘者/求职者电话直聊

微信小程序
手机也能找工作