0
我們有一個機器學習模型,看起來大致是這樣的:MLlib不保存模型數據星火2.1
sc = SparkContext(appName = "MLModel")
sqlCtx = SQLContext(sc)
df = sqlCtx.createDataFrame(data_res_promo)
#where data_res promo comes from a pandas dataframe
indexer = StringIndexer(inputCol="Fecha_Code", outputCol="Fecha_Index")
train_indexer = indexer.fit(df)
train_indexer.save('ALSIndexer') #This saves the indexer architecture
在我的機器上,當我運行它作爲一個地方,它會生成一個文件夾ALSIndexer /那具有鑲木地板和模型上的所有信息。
當我在我們的Spark的Azure集羣中運行它時,它不會在主節點(也不在從屬節點)生成文件夾。但是,如果我們嘗試重寫它,它會說:
cannot overwrite folder
這意味着什麼地方,但我們找不到它。
你有什麼建議嗎?
您是否檢查過羣集上的分佈式文件系統(hdfs或等效文件系統)? – Shaido
嘗試在HDFS中給出絕對路徑,如/ home/ml/alsindexer。我假設它可能試圖寫入/ user/spark /目前。 –
@Shaido是正確的,它在hdfs中,它只是一個複製回來的問題。你會不會把它作爲答案,以便你得到答案? –