/cluster-admin

Creative Commons Attribution 4.0 InternationalCC-BY-4.0

集群配置指南

前言

2016 年年初我的博士老板买了四五台机器问我有没有兴趣管理,那时候我才刚刚大四,虽然说当时我连 Linux 都没碰过,但是为了助研费自己对计算机的兴趣我还是答应接手了。记得装机的工程师说了这样一句话:就这几台机器还需要单独来管理么?感觉有被冒犯到。不过即使是这样我还是入了坑,一晃这么多年过去了,我自己也积累了不少技术,心里想着还是分享出来比较好。不过,管理机器真的是太有必要了

本指南使用 CC-BY 4.0 授权协议

内容组织

指南主要讨论如下的内容。

  • 系统配置(IP 地址,认证方式,存储,软件驱动等)
  • 调度器配置(SLURM 的部署)
  • 日常维护(开关机,添加用户,安装软件,调度器等)
  • 杂项(一些不太好分类但又十分有用的话题)

常见问题

为什么突然想起来写这个?

这几年老师经费越来越多了,不停地买机器、买设备。买完之后往机房一放,再从自己的学生里面随便挑一个人管机器。但是作为被钦定的学生自然也很懵逼,在啥也不会的情况下硬着头皮去管理,遇到不会的就到网上找一些似是而非的解决方案。当然我也是这么样子过来的,并且希望以后跟我有同样经历的人少走一些弯路,于是就想写个教程希望帮到大家。

适用群体和场合?

  • 中小型集群搭建(规模小于 50 台),使用 Linux 操作系统
  • 未设置超算平台的高校/企业
  • 想要学习运维知识/兼职运维/被强行指定为管理员

为什么用中文?

因为我喜欢这个语言,更希望更多国人看到,且百毒搜出来的很多解决方案都是错的。

你能保证里面的东西 100% 正确或者不过时吗?

不能,我会努力。不过做到比网上中文的各种博客好应该是没什么问题。

开始之前,有什么需要注意的吗?

  • 必须有一定 Linux 基础,至少了解 Linux 的基础命令。如果之前完全没有接触过那么我强烈建议你熟悉 Linux 之后再来学习管理,否则指南后面的内容就很难继续了。
  • 明白自己成为管理员所肩负的责任。总的来说:1) 尊重他人隐私;2) 权力越大责任越大;3) 三思而行集群可不像你的个人电脑,弄坏了随便重装系统就可以。如果真的到了删库跑路的地步,说明这个管理员做的是非常失败的。
  • 明白到哪去查找资料。软件官方说明书、Linux manpage 都应该是你的首选,如果要提问,那么 stackexchange、quora 等论坛是不错的地方,你还有万能的 google。国内的论坛就算了吧,质量相差太多。