8月12日进展汇总与下一步计划

Question

8月12日进展汇总与下一步计划

Closed this issue 8 years ago · 2 comments

pineking commented 8 years ago

当前状态：

Ceph：

完成Ceph FS 物理机挂载工作
集群的 Cephx 认证进行中

k8s + tensorflow:

完成 NFS + k8s + tensorflow 实验

下一步计划（需要解决的问题）：

继续完成 Cephx 认证流程
使用 Ceph 替换 NFS，完成 k8s + tensorflow 实验
在 GPU 机器上搭建k8s （GPU 机器已经到位）
实现 Ceph + GPU + k8s +tensorflow
在 k8s 里跑 Ceph （替换目前的docker运行方式，是否做再讨论，优先级低）

任务分工：

文山：
1. 更新 NFS + k8s + tensorflow 实验过程和信息到 github，兴帅 review
2. Ceph FS +k8s 替换 NFS + k8s
3. 信息及时同步到 github
兴帅：
1. 继续和文山做 Ceph + GPU + k8s +tensorflow，review 文山实验流程
2. 信息及时同步到 github
家盟：
1. 继续完成 Cephx 认证流程
2. 信息及时同步到 github
青松：
1. 搭建 2 个 Ceph 集群，一个供家盟实验Cephx，一个供文山和兴帅做 Ceph+k8s，替换 NFS + k8s
2. 清理多余 git repository
3. 同步信息到 github

需改进：

信息和问题要及时在github上同步

Answer 1 · 2016-08-16T06:09:45.000Z

GPU 集群已经安装完毕

liangjiameng@liangjiameng-Ubuntu:~$ kubectl cluster-info
Kubernetes master is running at https://10.10.10.93

To further debug and diagnose cluster problems, use 'kubectl cluster-info dump'.
liangjiameng@liangjiameng-Ubuntu:~$ kubectl get nodes
NAME          STATUS    AGE
10.10.10.93   Ready     3h
10.10.10.94   Ready     3h
10.10.10.95   Ready     3h

安装GPU集群的时候，有3个地方需要注意一下：

k8s版本号：worker和master下面的脚本都要修改。（以后可以考虑把版本号替换成latest，在我们安装的时候，我安装的时候，版本是1.3.4，安装完了之后，发现最新的版本已经更新到1.3.5）
生成tls key的时候，需要修改一下envelopment文件里面的master ip地址，重新打包，替换ngnix下面的zip包（已备份原来的zip文件），配置kubectl的话，请重新下载kubectl.zip 解压之后执行kube.sh。
ceph 需要修改一下ceph cluster name，以区别于CPU集群的ceph集群。mon 和 osd （mds没有安装）都要改（加参数 -e CLUSTER=$CEPH_CLUSTER_NAME ）

另外需要做的修改：

cloud-config-server 下面需要修改yaml文件，增加gpu的mac地址等信息，etcd的信息需要修改;
为了防止cloud-config-server从github上下载配置文件，覆盖本地配置文件，直接修改了server.go的代码。
dhcp需要增加GPU的mac地址，重启dhcp服务。

Answer 2 · 2016-08-16T06:24:21.000Z

自动化安装完了之后，所有的ceph osd都启动不起来，原因是物理机上的三个硬盘组成了一个raid 0。重启机器在bios里面把raid拆掉之后，除了10.10.10.93上的 sdc之外，其他的osd都能够正常启动（有的重启后能够正常启动）。93上的sdc 失败的原因是：ceph对sdc分区的时候失败了。
具体的信息在 k8sp/sextant#109 (comment) 里面进行了记录。解决这个问题的时候，参考了 @pineking 给的链接。