我有一個示例數據集存在於我的本地,我試圖做一些羣集上的基本操作。錯誤 - 來自工作者的錯誤沒有這樣的文件或目錄:'文件路徑'
import dask.dataframe as ddf
from dask.distributed import Client
client = Client('Ip address of the scheduler')
import dask.dataframe as ddf
csvdata = ddf.read_csv('Path to the CSV file')
客戶端被連接到又連接到兩個工人(在其他機器上)的調度器。
我的問題可能很微不足道。
這個csv文件應該存在於其他worker節點上嗎?
我似乎得到文件未找到錯誤。
使用,
futures=client.scatter(csvdata) x = ddf.from_delayed([future], meta=df) #Price is a column in the data df.Price.sum().compute(get=client.get) #returns" dd.Scalar<series-..., dtype=float64>" How do I access it? client.submit(sum, x.Price) #returns "distributed.utils - ERROR - 6dc5a9f58c30954f77913aa43c792cc8"
而且,我也請參閱本 Loading local file from client onto dask distributed cluster和http://distributed.readthedocs.io/en/latest/manage-computation.html
我想我是混合了很多東西在這裏,我的理解是糊塗了。 任何幫助將非常感激。