/rocky-river-hpc

for buiding and managing hpc

Primary LanguagePerlOtherNOASSERTION

项目logo

logo

开发说明

本项目旨在减轻初创科研团队HPC集群搭建和运维的困难。初创科研团队由于资金和硬件供应商技术缺乏等因素,需要额外的HPC运维技术支持。此项目可轻松地完成小规模HPC集群搭建,从学习的角度亦可促进HPC技术人才的培养。 项目的原始出发点来自本人在博士期间为课题组提供HPC运维支持经历,该项目一方面是对多年HPC运维经验的总结,另一方面是本人在毕业后仍然可以为原课题组同门提供些许帮助。为了节约开发和部署时间,项目有以下考虑:

  • 首先注重基础功能,即集群节点互联与统一管理、并行开发和运行环境、多用户多任务调度等,对于非主要功能可在开发和部署中适当削减。
  • 为开发方便,项目基于openhpc和xcat两个上游项目,操作系统首先之确定单个操作系统,即Rocky Linux。
  • 考虑到实际部署时的机房条件问题,项目将所有需要的文件打包,包括操作系统,最终发行版可以放在一个优盘里,无需互联网可部署。
  • 考虑到版本更新,将发行版的制作过程也写成脚本。

项目情况说明

  1. 项目目前完成了基础功能,已有功能经过虚拟机反复测试,并完成多次单机部署,形成生产力。
  2. 项目的功能代码放在Rocky-River 目录下,该目录下包含简要步骤。
  3. 项目主要参考openhpc官网的手册,本项目脚本可以供初学者参考学习。
  4. 由于本人工作原因,鸽的时间比较长,有问题可mail : fangjzh#foxmail.com 。防止抓取,'#'改成'@'!
  5. 项目的开发受到了HPC技术交流群(130653201)中各位大佬的支持和启发,如果觉得本项目对你有帮助,请慷慨地点击Star。

项目地址:https://github.com/fangjzh/rocky-river-hpc

操作步骤与已有功能

步骤:

功能:

  1. 一枚优盘离线快速安装所有功能
  2. 包含编译环境,GNU compiler和Intel OneAPI, mpi编译库和运行库
  3. moudule 载入环境变量
  4. 计算节点批量部署与管理功能
  5. slurm调度器基本配置,包含数据库记账功能
  6. 初步的集群监控支持

To do list

  • 各项服务的检测与修复脚本
  • 提供slurm基本使用手册,用户限额配置,GPU调度等
  • InfiniBand等硬件的支持
  • 磁盘配额等配置
  • 写开发和使用手册
  • 非核心功能作为可选组件
  • Grafana+Echarts制作自定义看板
  • BenchMark简单性能评估脚本
  • 完善集群监控和告警功能

Done!

  • 单脚本初始化安装程序,通过交互设置参数
  • 将安装步骤按功能分离,一级功能分为部署脚本和维护脚本
  • 原始logo设计,一座山下流过一条河
  • 决定了,名字叫“岩川”,英文名叫Rocky River。
  • 给项目取个名字,建立一个新的二级目录