2016-10-31 106 views
0

我有一個具有gpu節點(nvidia)的集羣並部署了DC/OS 1.8。我想啓用使用gpu隔離在gpu節點上安排作業(批處理和火花)。 DC/OS基於支持gpu隔離的mesos 1.0.1。在DC/OS上啓用GPU資源(CUDA)

+2

如果你可以用你已經嘗試或發現自己的東西來擴展你的問題,那將是非常好的。 –

回答

2

爲了使支撐GPU資源在DC/OS簇所需的下一個步驟:在GPU節點

  1. 配置mesos劑:
    1.1。停止DCOS-mesos-slave.service

    systemctl stop dcos-mesos-slave.service

    1.2。接下來的參數添加到的/ var/lib中/ DCOS/mesos,從常見文件:

    # a comma separated list of GPUs (id), as determined by running nvidia-smi on the host where the agent is to be launched MESOS_NVIDIA_GPU_DEVICES="0,1"

    # value of the gpus resource must be complied with number of ids above MESOS_RESOURCES= [ {"name":"ports","type":"RANGES","ranges": {"range": [{"begin": 1025, "end": 2180},{"begin": 2182, "end": 3887},{"begin": 3889, "end": 5049},{"begin": 5052, "end": 8079},{"begin": 8082, "end": 8180},{"begin": 8182, "end": 32000}]}} ,{"name": "gpus","type": "SCALAR","scalar": {"value": 2}}]

    MESOS_ISOLATION=cgroups/cpu,cgroups/mem,disk/du,network/cni,filesystem/linux,docker/runtime,docker/volume,cgroups/devices,gpu/nvidia

    1.3。啓動DCOS-mesos-slave.service

    systemctl start dcos-mesos-slave.service

  2. 在mesos框架啓用GPU_RESOURCES能力:

    2.1。 Marathon框架應該與選項 --enable_features "gpu_resources"

    2.2。極光調度應與選項-allow_gpu_resource

注推出。

任何運行具有Nvidia GPU支持的Mesos代理的主機都必須安裝有效的Nvidia內核驅動程序。強烈建議安裝相應的用戶級庫和工具作爲Nvidia CUDA工具包的一部分。許多使用Nvidia GPU的作業都依賴於CUDA,但不包括它會嚴重限制您可以在Mesos上運行的GPU感知作業的類型。

+1

你會碰巧知道如何爲馬拉松框架設置'--enable_features「gpu_resources」'。而要清楚的是,這是關於馬拉松嵌入mesos,而不是你可以從宇宙正確運行的服務? –

+1

沒有馬拉松嵌入到mesos中。 dcos中嵌入了馬拉松。您可以在dcos中創建獨立的馬拉松服務,也可以在獨立的mesos羣集上創建獨立的馬拉松服務。要在Marathon中啓用gpu_resources,請執行以下操作:1)獨立的mesos羣集:添加到文件'/ etc/marathon/conf/enable_features'中的內容:',gpu_resources'; 2)對於dcos,你必須在marathon守護進程參數中加入選項'--enable_features ='gpu_resources''來編輯馬拉松系統單元文件('/ etc/systemd/system/dcos-marathon.service')一個更好的方法) – Kr0t

3

不幸的是,DC/OS不正式支持的GPU在1.8(實驗對GPU的支持,將在下一版本中來這裏提到:https://github.com/dcos/dcos/pull/766)。

在這個下一個版本中,只有Marathon才能正式啓動GPU服務(節拍器(即批量作業)不會)。

關於spark,與Universe捆綁在一起的spark版本可能不支持Mesos構建的GPU。 Spark本身即將推出:https://github.com/apache/spark/pull/14644

+1

有沒有一個文檔/參考,說節拍器不支持GPU呢?我找不到一個。 1.9.1似乎也不需要這種支持。 我們也有要求使用基於計劃的作業,而不是基於馬拉松的基於服務的實例。 – Dharmi