2015-06-18 49 views
1

我想知道在選擇多個感興趣的文件時我可以推多少這個命令。例如,我使用以下通配符來獲取跨多個目錄感興趣的所有文件,但是我想使用正則表達式或類似方法來限制目標名稱的長度。PySpark textFile命令中的正則表達式

lines = sc.textFile("/home/spark-1.4.0/A/B_2*/Output/CSV.csv") 

但不是*,我可以限制目錄名的長度是多少?例如^[0-9]{8}$?或者不採用預過濾來構建有效目錄列表的任何方式。

回答

1

只是爲了保持直線你想在這裏是一個簡單的glob沒有正則表達式。你可以這樣做:

glob = "/home/spark-1.4.0/A/B_2{0}/Output/CSV.csv".format("[0-9]" * 8) 
lines = sc.textFile(glob)