k8sp/k8s-tensorflow

8月12日进展汇总与下一步计划

Closed this issue · 2 comments

当前状态:

Ceph:

  • 完成Ceph FS 物理机挂载工作
  • 集群的 Cephx 认证进行中

k8s + tensorflow:

  • 完成 NFS + k8s + tensorflow 实验

下一步计划(需要解决的问题):

  • 继续完成 Cephx 认证流程
  • 使用 Ceph 替换 NFS,完成 k8s + tensorflow 实验
  • 在 GPU 机器上搭建k8s (GPU 机器已经到位)
  • 实现 Ceph + GPU + k8s +tensorflow
  • 在 k8s 里跑 Ceph (替换目前的docker运行方式,是否做再讨论,优先级低)

任务分工:

  • 文山:
    1. 更新 NFS + k8s + tensorflow 实验过程和信息到 github, 兴帅 review
    2. Ceph FS +k8s 替换 NFS + k8s
    3. 信息及时同步到 github
  • 兴帅:
    1. 继续和文山做 Ceph + GPU + k8s +tensorflow,review 文山实验流程
    2. 信息及时同步到 github
  • 家盟:
    1. 继续完成 Cephx 认证流程
    2. 信息及时同步到 github
  • 青松:
    1. 搭建 2 个 Ceph 集群,一个供家盟实验Cephx,一个供文山和兴帅做 Ceph+k8s,替换 NFS + k8s
    2. 清理多余 git repository
    3. 同步信息到 github

需改进:

  • 信息和问题要及时在github上同步

GPU 集群已经安装完毕

liangjiameng@liangjiameng-Ubuntu:~$ kubectl cluster-info
Kubernetes master is running at https://10.10.10.93

To further debug and diagnose cluster problems, use 'kubectl cluster-info dump'.
liangjiameng@liangjiameng-Ubuntu:~$ kubectl get nodes
NAME          STATUS    AGE
10.10.10.93   Ready     3h
10.10.10.94   Ready     3h
10.10.10.95   Ready     3h

安装GPU集群的时候,有3个地方需要注意一下:

  1. k8s版本号:worker和master下面的脚本都要修改。(以后可以考虑把版本号替换成latest,在我们安装的时候,我安装的时候,版本是1.3.4,安装完了之后,发现最新的版本已经更新到1.3.5)
  2. 生成tls key的时候,需要修改一下envelopment文件里面的master ip地址,重新打包,替换ngnix下面的zip包(已备份原来的zip文件),配置kubectl的话,请重新下载kubectl.zip 解压之后执行kube.sh。
  3. ceph 需要修改一下ceph cluster name,以区别于CPU集群的ceph集群。mon 和 osd (mds没有安装)都要改(加参数 -e CLUSTER=$CEPH_CLUSTER_NAME )

另外需要做的修改:

  1. cloud-config-server 下面需要修改yaml文件,增加gpu的mac地址等信息,etcd的信息需要修改;
    为了防止cloud-config-server从github上下载配置文件,覆盖本地配置文件,直接修改了server.go的代码。
  2. dhcp需要增加GPU的mac地址,重启dhcp服务。

自动化安装完了之后,所有的ceph osd都启动不起来,原因是物理机上的三个硬盘组成了一个raid 0。重启机器在bios里面把raid拆掉之后,除了10.10.10.93上的 sdc之外,其他的osd都能够正常启动(有的重启后能够正常启动)。93上的sdc 失败的原因是:ceph对sdc分区的时候失败了。
具体的信息在 k8sp/sextant#109 (comment) 里面进行了记录。解决这个问题的时候,参考了 @pineking 给的链接