2017-02-10 122 views
0

我想使用火花流監控s3目錄並返回添加到該目錄的任何新文件的路徑。 textFileStream和fileStream似乎都無法做到這一點。實際上有辦法完成我想要做的事嗎?從火花傳輸中讀取新的s3文件路徑

編輯:Spark ver。 2.1.0

+0

Spark版本? – mrsrinivas

+0

@mrsrinivas spark 2.1.0 – foboi1122

+1

你可以添加你試過的代碼嗎?確保您已正確配置訪問密鑰和密鑰,以訪問s3文件系統。 – mrsrinivas

回答

0

它使用s3a://執行此操作;我有測試證明它。

  1. 設置了一個足夠大的窗口來處理延遲掃描目錄,並清理它。
  2. 你可以直接寫入目的地「目錄」;無需編寫然後重命名。如果你這樣做:文件被複制並拿起窗口。
  3. 不要在那裏設置檢查點