2013-04-17 56 views
0

如何將特定部分的cvs文件上傳到HDFS? 我是Hadoop中的新成員,我有一個問題,就是如果將關係數據庫導出到cvs文件中,然後將其上載到HDFS中。所以如何使用MapReduce來處理文件中的特定部分(表格)。 在此先感謝。如何將特定部分的cvs文件上傳到HDFS?

+0

你所說的表的特定部分是什麼意思? –

+0

導出的csv文件包含所有表,所以如何處理文件中任何地方存在的特定表 –

回答

0

使用BigTable的方式轉換您的數據庫,以一個大桌子

0

我假設RDBMS表導出爲每個表的單獨csv文件並存儲在HDFS中。我認爲,當您提到'特定部分(表格)'時,您指的是表格中的列數據。如果是這樣,請將單個csv文件放入單獨的文件路徑中,例如/user/userName/dbName/tables/table1.csv

現在,您可以爲輸入路徑和字段出現配置作業。您可能會考慮使用默認的輸入格式,以便您的映射器在輸入時將獲得一行。根據配置/屬性,您可以讀取特定字段並處理數據。

0

Cascading允許您使用MapReduce快速入門。它有框架,它允許您設置Taps訪問源(CSV文件),並對其進行處理管線內部說來(例如)添加列由A和總和放入C列選擇它們作爲Fields

相關問題