8月12日进展汇总与下一步计划
Closed this issue · 2 comments
pineking commented
当前状态:
Ceph:
- 完成Ceph FS 物理机挂载工作
- 集群的 Cephx 认证进行中
k8s + tensorflow:
- 完成 NFS + k8s + tensorflow 实验
下一步计划(需要解决的问题):
- 继续完成 Cephx 认证流程
- 使用 Ceph 替换 NFS,完成 k8s + tensorflow 实验
- 在 GPU 机器上搭建k8s (GPU 机器已经到位)
- 实现 Ceph + GPU + k8s +tensorflow
- 在 k8s 里跑 Ceph (替换目前的docker运行方式,是否做再讨论,优先级低)
任务分工:
- 文山:
- 更新 NFS + k8s + tensorflow 实验过程和信息到 github, 兴帅 review
- Ceph FS +k8s 替换 NFS + k8s
- 信息及时同步到 github
- 兴帅:
- 继续和文山做 Ceph + GPU + k8s +tensorflow,review 文山实验流程
- 信息及时同步到 github
- 家盟:
- 继续完成 Cephx 认证流程
- 信息及时同步到 github
- 青松:
- 搭建 2 个 Ceph 集群,一个供家盟实验Cephx,一个供文山和兴帅做 Ceph+k8s,替换 NFS + k8s
- 清理多余 git repository
- 同步信息到 github
需改进:
- 信息和问题要及时在github上同步
jiamliang commented
GPU 集群已经安装完毕
liangjiameng@liangjiameng-Ubuntu:~$ kubectl cluster-info
Kubernetes master is running at https://10.10.10.93
To further debug and diagnose cluster problems, use 'kubectl cluster-info dump'.
liangjiameng@liangjiameng-Ubuntu:~$ kubectl get nodes
NAME STATUS AGE
10.10.10.93 Ready 3h
10.10.10.94 Ready 3h
10.10.10.95 Ready 3h
安装GPU集群的时候,有3个地方需要注意一下:
- k8s版本号:worker和master下面的脚本都要修改。(以后可以考虑把版本号替换成latest,在我们安装的时候,我安装的时候,版本是1.3.4,安装完了之后,发现最新的版本已经更新到1.3.5)
- 生成tls key的时候,需要修改一下envelopment文件里面的master ip地址,重新打包,替换ngnix下面的zip包(已备份原来的zip文件),配置kubectl的话,请重新下载kubectl.zip 解压之后执行kube.sh。
- ceph 需要修改一下ceph cluster name,以区别于CPU集群的ceph集群。mon 和 osd (mds没有安装)都要改(加参数 -e CLUSTER=$CEPH_CLUSTER_NAME )
另外需要做的修改:
- cloud-config-server 下面需要修改yaml文件,增加gpu的mac地址等信息,etcd的信息需要修改;
为了防止cloud-config-server从github上下载配置文件,覆盖本地配置文件,直接修改了server.go的代码。 - dhcp需要增加GPU的mac地址,重启dhcp服务。
jiamliang commented
自动化安装完了之后,所有的ceph osd都启动不起来,原因是物理机上的三个硬盘组成了一个raid 0。重启机器在bios里面把raid拆掉之后,除了10.10.10.93上的 sdc之外,其他的osd都能够正常启动(有的重启后能够正常启动)。93上的sdc 失败的原因是:ceph对sdc分区的时候失败了。
具体的信息在 k8sp/sextant#109 (comment) 里面进行了记录。解决这个问题的时候,参考了 @pineking 给的链接。