apache-pig

2熱度

1回答

中讀取數據包數據我有一個databag是以下格式 {([ChannelName#{ (bigXML,[])} ])} DataBag僅由一個項目是一個元組。元組只包含Map的項目。地圖是類型，它是頻道名稱和值之間的映射。這裏的值是DataBag類型，它只包含一個元組。元組包括兩個項目一個是charrarray（非常大的字符串）和另一種是地圖我發出上述袋一個UDF。現在我需要調用另一個U

1熱度

2回答

豬版本不匹配（Hadoop）

有沒有人遇到過這個問題？這是錯誤日誌：協議org.apache.hadoop.mapred.JobSubmissionProtocol版本不匹配。（client = 20，server = 21）我用豬0.8.0，我的hadoop版本是0.20.10。我很感謝有人能幫助我。

4熱度

1回答

爲本地執行微調PIG

我使用PIG拉丁文進行日誌處理，因爲它的表現力在數據不夠大而無法擔心設置整個hadoop羣集的問題中。我在本地模式下運行PIG，但我認爲它沒有使用所有可用的內核（目前爲16），監視CPU最多顯示200％的CPU使用率。是否有任何教程或建議微調PIG本地執行？我確信所有的mapper都可以使用所有可用的內核，並進行一些簡單的調整。（在我的腳本中，我已經將default_parallel參數設置爲

4熱度

6回答

如果我有一個構造函數需要一個文件路徑，如果它被打包到一個jar文件中，我該如何「僞造」它？

這個問題的背景是，我試圖在我寫的豬腳本中使用maxmind java api ...但是，我不認爲要麼知道這兩個問題，要麼回答這個問題是必要的。 maxmind API有一個構造函數，它需要一個名爲GeoIP.dat的文件的路徑，該文件是一個逗號分隔的文件，它具有所需的信息。我有一個包含API的jar文件，以及一個實例化類並使用它的包裝類。我的想法是將GeoIP.dat文件打包到jar文件中，然

1熱度

1回答

可以將PIG和HIVE稱爲單獨的編程模型嗎？

這個問題可能聽起來很刺激，實際上並沒有什麼關係。這是我與我的一位同事進行的一場小型辯論的衍生。他一直堅持認爲HIVE和PIG可以被稱爲單獨的「編程模型」，因爲當你編寫MapReduce作業時，你並不需要考慮MapReduce - 特別是如果你正在編寫HIVE。從程序員的角度來看，MapReduce部分是完全抽象的。它完全像SQL一樣。但我有點不同意，因爲用這些語言編寫的腳本最終會轉換爲多個map

19熱度

7回答

如何解析Pig中的JSON？

我有很多gzip'd日誌文件在s3中有3種類型的日誌行：b，c，i。我和c都是單級json： {"this":"that","test":"4"} b類型是深深嵌套的json。我碰到這個gist談論編譯一個罐子，使這項工作。由於我的Java技能不如恆星，我不知道從這裏做什麼。 {"this":{"foo":"bar","baz":{"test":"me"},"total":"5"}} 由於

2熱度

1回答

如何讀取PIG UDF中的靜態文件

我是PIG和Hadoop的新手。我寫了一個PIG UDF，它在String上運行並返回一個字符串。我實際上使用了一個已經存在的包含udf中業務邏輯的jar的類。類構造函數使用2個文件名作爲輸入，它用於構建用於處理輸入的一些字典。如何讓它在mapreduce模式下工作我試圖在豬本地模式下傳遞文件名，它工作正常。但我不知道如何使它在mapreduce模式下工作？分佈式緩存可以解決問題嗎？這裏是我的代

11熱度

5回答

一種將結果從Pig導出到數據庫的方法

有沒有將結果從Pig直接導出到像mysql這樣的數據庫的方法？

2熱度

1回答

Hadoop超立方體

嘿，我開始一個基於hadoop的超立方體，具有靈活的維數。有沒有人知道任何現有的方法呢？我剛剛發現PigOLAPSketch，但沒有代碼可以使用它。另一種方法是來自lastfm的Zohmg，它使用hbase，但似乎很死。我想我會開始豬解決方案，也許你有一些建議？

8熱度

1回答

PIG中整套記錄的最大值/最小值

我有一組記錄，我從一個文件中加載，我需要做的第一件事是獲取列的最大值和最小值。在SQL我會這樣子查詢做到這一點： select c.state, c.population, (select max(c.population) from state_info c) as max_pop, (select min(c.population) from state_info c) as min_p