1
我需要分割由另一個豬腳本生成的輸出部分文件,並生成每個包含1000行的組。這些組將被髮布到web服務以供進一步處理。數據之間沒有關係,所以我無法將數據分組到特定字段。豬:將大文件分割成多個小文件
我該如何在豬身上做到這一點?
我需要分割由另一個豬腳本生成的輸出部分文件,並生成每個包含1000行的組。這些組將被髮布到web服務以供進一步處理。數據之間沒有關係,所以我無法將數據分組到特定字段。豬:將大文件分割成多個小文件
我該如何在豬身上做到這一點?
如果拆分與數據無關,爲什麼甚至使用Pig或MapReduce呢?作爲替代方案,如果我沒有誤解,則可以使用標準拆分程序拆分數據。例如:
cat part-* | split -d -l 1000 - result-