2013-12-16 78 views
0

使用HADOOP處理日誌文件等數據非常有用。 因爲理論上我們可以將數據文件拆分成某個塊,並且每個節點都可以處理這個單獨的塊來生成k-v對,然後將這些k-v對傳遞給映射器和縮減器。但是如果我們的任務的輸入數據文件是 更復雜,這意味着我們不拆分或每個計算節點,但需要整個輸入數據,我們該怎麼做?如何使用hadoop處理交叉數據輸入文件任務?

例如

我們想要計算每兩個向量的距離。在輸入文件 每一行暗示一個向量。這個問題肯定可以是一個並行的過程,因爲每個節點都可以計算一個向量與所有其他向量的距離。但是我們如何使用HADOOP框架來處理 這個呢?換句話說,如何將這個輸入數據文件拆分爲某些塊,我們可以從每個塊產生一些鍵值,然後將它們傳遞給映射器和縮減器?

回答

0

如果你想處理Hadoop中的圖形數據來看看Apache Giraphtitan(建立在HBase的)

相關問題