我有100個存儲在HDFS中的Excel(* .xlsx)文件。從上面使用將大量Excel文件讀取到Apache Spark中
rawData = sc.textFile("/user/cloudera/raw_data/dataPoint1/dataPoint.xlsx")
扔亂碼數據
/user/cloudera/raw_data/dataPoint1/dataPoint.xlsx
/user/cloudera/raw_data/dataPoint2/dataPoint.xlsx
...
..
.
/user/cloudera/raw_data/dataPoint10/dataPoint.xlsx
閱讀中的*的.xlsx文件中的一個: 的100個*的.xlsx文件被分爲10個目錄,如下圖所示!我收到
一個明顯的建議是使用Gnumeric電子表格應用程序的命令行工具,叫做ssconvert:
$ ssconvert dataPoint.xlsx dataPoint.csv
,然後傾倒入HDFS,這樣我就可以直接讀取* .csv文件。 但這不是我想要解決的或者是要求。
解決方案Python
(首選)和Java
將不勝感激。我是一名新手,所以詳細的演練會非常有幫助。
在此先感謝。
我會加載每個文件與xlrd https://pypi.python.org/pypi/xlrd處理它,然後聯合所有的數據。 –
@TomRon當你說處理它時,你的意思是將表單數據提取到一個python列表中,然後將該列表加載到一個RDD中? –
嘗試使用熊貓描述(http://stackoverflow.com/questions/9884353/xls-to-csv-convertor)轉換爲csv,然後加載到火花RDD – szu