2017-06-16 39 views
1

我在自己的三個VM上安裝了DC/OS 1.9,所有節點都沒有GPU資源,並且slave/slave-public節點成功啓動。在一個從它記錄下圖爲:dc/os中的gpu/nvidia隔離

Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: E0615 04:43:28.488627 31752 containerizer.cpp:335] Cannot create the Nvidia GPU isolator: NVML is not available 
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: 2017-06-15 04:43:28,494:31752(0x7f9291dd8700):[email protected][email protected]: Client environment:zookeeper.version=zookeeper C client 3.4.8 
..... 
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: I0615 04:43:28.495215 31752 slave.cpp:211] Mesos agent started on (1)@192.168.3.72:5051 

在我的另外一個測試環境,其mesos版本是1.0.1,我開始mesos從(節點也沒有GPU資源)與「的cgroup /設備,GPU/nvidia「隔離,但未能啓動。該日誌顯示:

Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin linker-start-agent.sh[25300]: Failed to create a containerizer: Could not create MesosContainerizer: Failed to create isolator 'gpu/nvidia': Cannot create the Nvidia GPU isolator: NVML is not available 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service: main process exited, code=exited, status=1/FAILURE 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: Unit dcos-mesos-slave.service entered failed state. 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service failed. 

我想知道:是否沒有GPU資源的節點可以開始mesos-藥膏與GPU/NVIDIA隔離?如果是,如何?

回答

2

DC/OS的行爲與vanilla Mesos稍有不同。

  • 香草Mesos,代理將拒絕啓動,如果你啓用gpu/nvidia隔離,但沒有安裝NVML。

  • 使用DC/OS,如果未安裝NVML(始終啓用gpu/nvidia隔離器),代理將發出警告消息。

注:的依賴是在NVML庫,而不是實際的GPU資源。如果安裝了NVML,但未在框中找到GPU,則該代理將不會啓用gpu/nvidia隔離器啓用。

+1

這是從哪裏來的差異:https://github.com/mesosphere/mesos/commit/13783195d6ea8e34f528022cd13a5dba4bd32c62 – Till

+0

我明白了!非常感謝! –