2011-10-20 60 views
0

我使用Apache Hadoop處理多個服務器日誌文件(大約40個)並收集大量指標。如果其中一個或多個文件不一致或已損壞,我想排除從這些文件收集的所有指標,但保留其他文件的指標。Apache Hadoop - 損壞時排除文件

您認爲最明智的做法是什麼?

回答

0

當你加載你的文件時,用一個標識符來表示該行所來自的文件(可能是文件名的散列)來豐富每一行。如果您需要保留損壞或不一致的數據(並避免處理它),那麼您可以根據該標識符排除行。否則,您可以執行第二遍「擦洗」貼圖/縮小以消除它們。