我有一個5個節點的簇,部署了YARN。 2個Namenodes和3個Datanodes。雖然我的代碼是在spark中提交的。我試圖將數據導出到csv,但是當我這樣做時,數據會被導出到2個datanodes,並且兩個導出文件夾中都會有不同的內容。一個會有_SUCCESS文件,另一個會有導出的csv(part- *)。我的應用程序結束了一個空白路徑,因爲有時具有_SUCCESS文件的節點和運行應用程序的節點是相同的,但實際的csv在另一個節點中。另外,有時候_SUCCESS文件不會被創建,但部分 - *。csv被創建,但是在另一個節點中,在這種情況下,如果應用程序沒有再次在同一個節點上運行,我會再次使用空白路徑。我正在使用通過以下方式:紗線簇上的spark scala csv export
dataframe.coalesce(1).write.option( 「頭」, 「真」)CSV(路徑)
你的路徑的價值是什麼? – bigdatamann
file:/// <在linux系統中的絕對路徑> – sanju4evr