2012-01-28 35 views
1

我是PIG新手,對它不瞭解太多。如何解析PIG中的文本?要讀取字段的值,豬中存在位置參數的概念,例如$ 0對應於第一個字段,類似地,是否有像可以讀取整行的位置參數那樣的任何特性。什麼是RADOOP,在哪裏可以使用它?使用PIG文本解析

+0

這是兩個問題嗎? – 2012-01-29 18:36:24

+0

是的,它是逸岸三個問題 – 2012-01-30 08:26:17

回答

0

對於文本解析,首先您可以閱讀PIG和wordcount示例的教程。

下面給出鏈接:

  1. Pig tutorial

  2. Wordcount example - 閱讀來自這個鏈接的單詞計數示例,並涉及在給定的教程的命令。

0

我不確定你在問什麼。豬有許多功能,例如TOKENIZE和正則表達式匹配/提取UDF,這些都可能有幫助。當然,您也可以使用Java或Python編寫任何您喜歡的文本處理代碼,然後調用它。

+0

我如何可以調用Java或Python代碼豬 – 2012-01-30 08:59:52

0

我想你是不是需要標記整行,只要把整行作爲一個字段,對不對?

然後,我想你可以使用PigStorage(「\ n」),使用「\ n」作爲字段分隔符整行當作一個字段。

我認爲你的「RADOOP」是指hadoop,對吧?作爲第一步,你可以在本地模式下運行豬,這意味着你不需要安裝hadoop。

+0

我想訪問特定的行假設10行我怎麼會做,我問that.No我只能意味着RADOOP ... – 2012-01-30 08:34:11

1

你的問題表明您想擁有某種與您的數據交互模式,但這一數據的體積較大。

RADOOP爲R和Hadoop的結合,它應該能夠爲您提供一個GUI通過一些R統計分析使用Hadoop規模加工來運行你的大數據。

與此同時,我建議您看看Google-Refine(http://code.google.com/p/google-refine/),您可以輕鬆下載並運行您的數據證據流程。

隨着谷歌,瑞風,你可以輕鬆地分析你的數據,使用內置的文本,日期和數字功能。您還可以使用Jython進一步增強所需的功能。它可以處理大規模的數據採樣並使用內置Facets調查其功能。 See example of Facets

R也是用於數據的證據一個偉大的工具,具有良好的抽樣等統計分析庫。但其接口基於命令行,針對高級統計師和分析師,而不是針對普通用戶。