使用PIG文本解析

我是PIG新手，對它不瞭解太多。如何解析PIG中的文本？要讀取字段的值，豬中存在位置參數的概念，例如$ 0對應於第一個字段，類似地，是否有像可以讀取整行的位置參數那樣的任何特性。什麼是RADOOP，在哪裏可以使用它？使用PIG文本解析

這是兩個問題嗎？ – 2012-01-29 18:36:24

是的，它是逸岸三個問題 – 2012-01-30 08:26:17

對於文本解析，首先您可以閱讀PIG和wordcount示例的教程。

下面給出鏈接：

2012-01-30 05:22:02 Debaditya

我不確定你在問什麼。豬有許多功能，例如TOKENIZE和正則表達式匹配/提取UDF，這些都可能有幫助。當然，您也可以使用Java或Python編寫任何您喜歡的文本處理代碼，然後調用它。

2012-01-29 22:40:27 SquareCog

我如何可以調用Java或Python代碼豬 – 2012-01-30 08:59:52

我想你是不是需要標記整行，只要把整行作爲一個字段，對不對？

然後，我想你可以使用PigStorage（「\ n」），使用「\ n」作爲字段分隔符整行當作一個字段。

我認爲你的「RADOOP」是指hadoop，對吧？作爲第一步，你可以在本地模式下運行豬，這意味着你不需要安裝hadoop。

2012-01-30 07:54:55 zjffdu

我想訪問特定的行假設10行我怎麼會做，我問that.No我只能意味着RADOOP ... – 2012-01-30 08:34:11

你的問題表明您想擁有某種與您的數據交互模式，但這一數據的體積較大。

RADOOP爲R和Hadoop的結合，它應該能夠爲您提供一個GUI通過一些R統計分析使用Hadoop規模加工來運行你的大數據。

與此同時，我建議您看看Google-Refine（http://code.google.com/p/google-refine/），您可以輕鬆下載並運行您的數據證據流程。

隨着谷歌，瑞風，你可以輕鬆地分析你的數據，使用內置的文本，日期和數字功能。您還可以使用Jython進一步增強所需的功能。它可以處理大規模的數據採樣並使用內置Facets調查其功能。 See example of Facets

R也是用於數據的證據一個偉大的工具，具有良好的抽樣等統計分析庫。但其接口基於命令行，針對高級統計師和分析師，而不是針對普通用戶。

2012-01-31 14:32:49 Guy

回答