2013-04-10 97 views
0

我有幾個不支持JDBC的數據庫,但我可以從這些數據庫中檢索數據。我想通過mapreduce程序將這些數據傳遞給mapper。我努力從「mapreduce.lib.DB」包中的源文件中找出一些東西,但我覺得缺少某些東西。任何人都可以告訴我如何將數據庫的輸出傳遞給映射器?將數據傳遞給映射器

+0

你需要更明確的幫助是需要的!!! – 2013-04-10 12:48:09

回答

0

我認爲你需要Sqoop

首先,您必須使用sqoop import命令將數據從rdbms傳輸到hdfs。

稍後您將編寫一個mapreduce程序,該程序將輸入路徑作爲方法setInputpath的參數。

0

一種簡單的方法是將數據從數據庫批量導出到文件中,將文件放入HDFS中並使用FileInputFormat讀取HDFS中的文件並對其進行處理。

+0

我真的想在這個數據庫之上運行一個mapreduce程序,就像我們在mysql或任何其他數據庫上運行mapreduce prog一樣。因此,將數據從數據庫中提取到HDFS中的文件不是性能高效的。請建議是否有其他方式可以將此數據傳遞給映射器? – 2013-04-10 13:49:31

相關問題