项目logo
开发说明
本项目旨在减轻初创科研团队HPC集群搭建和运维的困难。初创科研团队由于资金和硬件供应商技术缺乏等因素,需要额外的HPC运维技术支持。此项目可轻松地完成小规模HPC集群搭建,从学习的角度亦可促进HPC技术人才的培养。 项目的原始出发点来自本人在博士期间为课题组提供HPC运维支持经历,该项目一方面是对多年HPC运维经验的总结,另一方面是本人在毕业后仍然可以为原课题组同门提供些许帮助。为了节约开发和部署时间,项目有以下考虑:
- 首先注重基础功能,即集群节点互联与统一管理、并行开发和运行环境、多用户多任务调度等,对于非主要功能可在开发和部署中适当削减。
- 为开发方便,项目基于openhpc和xcat两个上游项目,操作系统首先之确定单个操作系统,即Rocky Linux。
- 考虑到实际部署时的机房条件问题,项目将所有需要的文件打包,包括操作系统,最终发行版可以放在一个优盘里,无需互联网可部署。
- 考虑到版本更新,将发行版的制作过程也写成脚本。
项目情况说明
- 项目目前完成了基础功能,已有功能经过虚拟机反复测试,并完成多次单机部署,形成生产力。
- 项目的功能代码放在Rocky-River 目录下,该目录下包含简要步骤。
- 项目主要参考openhpc官网的手册,本项目脚本可以供初学者参考学习。
- 由于本人工作原因,鸽的时间比较长,有问题可mail : fangjzh#foxmail.com 。防止抓取,'#'改成'@'!
- 项目的开发受到了HPC技术交流群(130653201)中各位大佬的支持和启发,如果觉得本项目对你有帮助,请慷慨地点击Star。
项目地址:https://github.com/fangjzh/rocky-river-hpc
操作步骤与已有功能
步骤:
- 参考 Rocky-River 目录下的 README.md
功能:
- 一枚优盘离线快速安装所有功能
- 包含编译环境,GNU compiler和Intel OneAPI, mpi编译库和运行库
- moudule 载入环境变量
- 计算节点批量部署与管理功能
- slurm调度器基本配置,包含数据库记账功能
- 初步的集群监控支持
To do list
- 各项服务的检测与修复脚本
- 提供slurm基本使用手册,用户限额配置,GPU调度等
- InfiniBand等硬件的支持
- 磁盘配额等配置
- 写开发和使用手册
- 非核心功能作为可选组件
- Grafana+Echarts制作自定义看板
- BenchMark简单性能评估脚本
- 完善集群监控和告警功能
Done!
- 单脚本初始化安装程序,通过交互设置参数
- 将安装步骤按功能分离,一级功能分为部署脚本和维护脚本
- 原始logo设计,一座山下流过一条河
- 决定了,名字叫“岩川”,英文名叫Rocky River。
- 给项目取个名字,建立一个新的二级目录