2014-02-17 55 views
0

我需要創建一個從HDFS讀取Excel文件並對其進行一些分析的減少地圖的程序。從那裏以excel文件的格式存儲輸出。我知道TextInputFormat用於從HDFS中讀取.txt文件,但我必須使用哪種方法或哪種輸入格式?Excel的Hadoop InputFormat

+0

什麼是用例? 這是一個單一的輸入文件? 它是什麼尺寸? 你在excel應用程序中使用它,還是隻使用格式? 使用excel適用於相對較小的文件 使用hadoop適用於非常大的數據集 –

+0

我需要從HDFS檢索一個Excel字段。該文件的大小是1913 KB。我需要在僞分佈式單模式羣集中處理這個文件。 –

+0

我們可以直接從hadoop集羣讀取這個excel文件嗎?什麼是我需要在作業配置中使用的inputformat類型 –

回答

0

一般來說,Hadoop是矯枉過正對於這種情況,但一些相關的解決方案

  1. 外部解析該文件,並轉換爲Hadoop的兼容格式

  2. 閱讀完整的文件作爲一個記錄see this answer

  3. 使用兩個鏈接作業。如2中的第一個,批量讀取文件,併發出每個記錄作爲下一個作業的輸入。