1
我必須在一個以「_」(下劃線)開頭的文件夾中處理一堆文件。有沒有一種方法可以強制hadoop查看這些文件夾?我是否需要編寫自己的FileInputFormat?有沒有辦法強制hadoop作業查看下劃線文件夾?
我必須在一個以「_」(下劃線)開頭的文件夾中處理一堆文件。有沒有一種方法可以強制hadoop查看這些文件夾?我是否需要編寫自己的FileInputFormat?有沒有辦法強制hadoop作業查看下劃線文件夾?
最簡單的方法可能是自己使用例如FileSystem.globStatus
建立輸入文件列表,然後手動將它們添加到FileInputFormat.addInputPath
的作業中。 FileSystem.globStatus
默認情況下不會過濾隱藏文件。
您的意思是以「_」開頭的文件夾不止一個? – vefthym