我有一個運行在centos 6.5上的hadoop集羣。我目前使用Python 2.6。由於不相關的原因,我無法升級到Python 2.7。由於這個不幸的事實,我不能安裝pydoop。在hadoop集羣中,我有大量的原始數據文件,名爲raw「yearmonthdaytimehour」.txt括號中的所有內容都是數字。 有沒有辦法在python中製作hadoop目錄下的所有文件列表?所以程序會創建一個類似的列表。在沒有pydoop的情況下列出HDFS中的所有文件
listoffiles=['raw160317220001.txt', 'raw160317230001.txt', ....]
它將使一切我需要做很多更容易,因爲擺脫每天2小時15文件,我將只需要調用dothing(listoffiles [39])。爲什麼我必須這樣做呢,有一些無關的複雜因素。
我知道有一種方法可以很容易地使用本地目錄來完成這項工作,但hadoop使得一切都變得更加複雜。
所以你要求一種方法來在Python中列出沒有pydoop的HDFS文件? – kichik
只需通過shell進程運行'hadoop fs -ls'命令(假設你已經安裝了Hadoop二進制文件) –
im問如何創建一個包含所有hdfs文件名稱的數組。 – Sam