Apache Hadoop - 損壞時排除文件

我使用Apache Hadoop處理多個服務器日誌文件（大約40個）並收集大量指標。如果其中一個或多個文件不一致或已損壞，我想排除從這些文件收集的所有指標，但保留其他文件的指標。Apache Hadoop - 損壞時排除文件

您認爲最明智的做法是什麼？

2011-10-20 Frederic

當你加載你的文件時，用一個標識符來表示該行所來自的文件（可能是文件名的散列）來豐富每一行。如果您需要保留損壞或不一致的數據（並避免處理它），那麼您可以根據該標識符排除行。否則，您可以執行第二遍「擦洗」貼圖/縮小以消除它們。

2011-10-20 18:25:26

回答