如何使用hadoop處理交叉數據輸入文件任務？

使用HADOOP處理日誌文件等數據非常有用。因爲理論上我們可以將數據文件拆分成某個塊，並且每個節點都可以處理這個單獨的塊來生成k-v對，然後將這些k-v對傳遞給映射器和縮減器。但是如果我們的任務的輸入數據文件是更復雜，這意味着我們不拆分或每個計算節點，但需要整個輸入數據，我們該怎麼做？如何使用hadoop處理交叉數據輸入文件任務？

例如

我們想要計算每兩個向量的距離。在輸入文件每一行暗示一個向量。這個問題肯定可以是一個並行的過程，因爲每個節點都可以計算一個向量與所有其他向量的距離。但是我們如何使用HADOOP框架來處理這個呢？換句話說，如何將這個輸入數據文件拆分爲某些塊，我們可以從每個塊產生一些鍵值，然後將它們傳遞給映射器和縮減器？

來源

2013-12-16 ccyjava

如果你想處理Hadoop中的圖形數據來看看Apache Giraph或titan（建立在HBase的）

來源

2013-12-16 18:41:04

如何使用hadoop處理交叉數據輸入文件任務？

回答

相關問題