職位描述
該職位信息待核驗,請仔細了解後再進行投遞!
崗位職責
1. 負責 AIDC機房運維團隊的日常管理、工作分配與績效考核,帶領團隊保障 7×24 小時穩定運行。
2. 製定並完善機房運維製度、標準化作業流程、應急預案及安全管理規範。
3. 協調廠商、客戶、工程團隊,統籌處理機房運維相關的跨部門事務。
4. 全麵負責機房供配電係統、UPS、PDU、精密空調、液冷/浸沒式冷卻、消防係統等設施的運行、巡檢、維護與優化。
5. 監督機房設備上架、布線、標簽管理、資產登記等操作,確保部署規範、線路整齊、安全可控。
6. 管控機房溫濕度、功率分布及環境監控係統,及時處理各類機房告警。
7. 管理並維護 GPU/CPU 混合算力節點、並行存儲係統(Ceph、Lustre、BeeGFS)、高速網絡(25G/100G、InfiniBand、RDMA)等核心設備。
8. 負責集群調度係統(Slurm、Kubernetes GPU Operator)的穩定運行與資源優化分配。
9. 製定機房及算力中心的安全策略,包括物理安全、數據安全及訪問控製。
10. 監督落實應急演練、災備切換、事故調查與複盤機製。
11. 對運維風險進行分析評估,提出優化與改進建議,降低運維事故發生率。
任職要求
1. 計算機、通信、電子、自動化或相關專業,本科及以上學曆,5 年以上數據中心或 HPC 集群運維經驗,其中 2 年以上團隊管理經驗。
2. 熟悉機房基礎設施運行原理與維護方法,具備 IDC 項目管理與改造經驗。
3. 精通 Linux 係統管理與網絡架構,掌握高速網絡(InfiniBand、RDMA)運維技術。
4. 熟悉 GPU 服務器及 HPC 集群運行原理,有 AI 算力平台運維或優化經驗優先。
5. 具備良好的組織協調能力、跨部門溝通能力與團隊領導力。
6. 有運維自動化、監控平台建設經驗(Prometheus、Zabbix、Ansible 等)者優先。
7. 持有相關認證(如 NVIDIA NVAIE、RHCE、HCIE-Cloud、Uptime ATD)者優先考慮。
1. 負責 AIDC機房運維團隊的日常管理、工作分配與績效考核,帶領團隊保障 7×24 小時穩定運行。
2. 製定並完善機房運維製度、標準化作業流程、應急預案及安全管理規範。
3. 協調廠商、客戶、工程團隊,統籌處理機房運維相關的跨部門事務。
4. 全麵負責機房供配電係統、UPS、PDU、精密空調、液冷/浸沒式冷卻、消防係統等設施的運行、巡檢、維護與優化。
5. 監督機房設備上架、布線、標簽管理、資產登記等操作,確保部署規範、線路整齊、安全可控。
6. 管控機房溫濕度、功率分布及環境監控係統,及時處理各類機房告警。
7. 管理並維護 GPU/CPU 混合算力節點、並行存儲係統(Ceph、Lustre、BeeGFS)、高速網絡(25G/100G、InfiniBand、RDMA)等核心設備。
8. 負責集群調度係統(Slurm、Kubernetes GPU Operator)的穩定運行與資源優化分配。
9. 製定機房及算力中心的安全策略,包括物理安全、數據安全及訪問控製。
10. 監督落實應急演練、災備切換、事故調查與複盤機製。
11. 對運維風險進行分析評估,提出優化與改進建議,降低運維事故發生率。
任職要求
1. 計算機、通信、電子、自動化或相關專業,本科及以上學曆,5 年以上數據中心或 HPC 集群運維經驗,其中 2 年以上團隊管理經驗。
2. 熟悉機房基礎設施運行原理與維護方法,具備 IDC 項目管理與改造經驗。
3. 精通 Linux 係統管理與網絡架構,掌握高速網絡(InfiniBand、RDMA)運維技術。
4. 熟悉 GPU 服務器及 HPC 集群運行原理,有 AI 算力平台運維或優化經驗優先。
5. 具備良好的組織協調能力、跨部門溝通能力與團隊領導力。
6. 有運維自動化、監控平台建設經驗(Prometheus、Zabbix、Ansible 等)者優先。
7. 持有相關認證(如 NVIDIA NVAIE、RHCE、HCIE-Cloud、Uptime ATD)者優先考慮。
工作地點
地址:杭州杭州高新區(濱江區)長河街道長河路,新東忠科技園4號樓7樓
📍
點擊查看地圖
詳細位置,可以參考上方地址信息
求職提示:用人單位發布虛假招聘信息,或以任何名義向求職者收取財物(如體檢費、置裝費、押金、服裝費、培訓費、身份證、畢業證等),均涉嫌違法,請求職者務必提高警惕。
職位發布者
高冬嬋HR
杭州維服科技有限公司
-
計算機軟件
-
21-50人
-
私營·民營企業
-
中國(浙江)自由貿易試驗區杭州市濱江區長河街道長河路590號4幢7樓746室

杭州
5年以上
本科
2026-04-17 14:44:37
511人關注
注:聯係我時,請說是在杭州人才網上看到的。
