apache-pig

    2熱度

    1回答

    中讀取數據包數據我有一個databag是以下格式 {([ChannelName#{ (bigXML,[])} ])} DataBag僅由一個項目是一個元組。 元組只包含Map的項目。 地圖是類型,它是頻道名稱和值之間的映射。 這裏的值是DataBag類型,它只包含一個元組。 元組包括兩個項目一個是charrarray(非常大的字符串)和另一種是地圖 我發出上述袋一個UDF。 現在我需要調用另一個U

    1熱度

    2回答

    有沒有人遇到過這個問題?這是錯誤日誌: 協議org.apache.hadoop.mapred.JobSubmissionProtocol版本不匹配。 (client = 20,server = 21) 我用豬0.8.0,我的hadoop版本是0.20.10。 我很感謝有人能幫助我。

    4熱度

    1回答

    我使用PIG拉丁文進行日誌處理,因爲它的表現力在數據不夠大而無法擔心設置整個hadoop羣集的問題中。我在本地模式下運行PIG,但我認爲它沒有使用所有可用的內核(目前爲16),監視CPU最多顯示200%的CPU使用率。 是否有任何教程或建議微調PIG本地執行?我確信所有的mapper都可以使用所有可用的內核,並進行一些簡單的調整。 (在我的腳本中,我已經將default_parallel參數設置爲

    4熱度

    6回答

    這個問題的背景是,我試圖在我寫的豬腳本中使用maxmind java api ...但是,我不認爲要麼知道這兩個問題,要麼回答這個問題是必要的。 maxmind API有一個構造函數,它需要一個名爲GeoIP.dat的文件的路徑,該文件是一個逗號分隔的文件,它具有所需的信息。 我有一個包含API的jar文件,以及一個實例化類並使用它的包裝類。我的想法是將GeoIP.dat文件打包到jar文件中,然

    1熱度

    1回答

    這個問題可能聽起來很刺激,實際上並沒有什麼關係。這是我與我的一位同事進行的一場小型辯論的衍生。他一直堅持認爲HIVE和PIG可以被稱爲單獨的「編程模型」,因爲當你編寫MapReduce作業時,你並不需要考慮MapReduce - 特別是如果你正在編寫HIVE。從程序員的角度來看,MapReduce部分是完全抽象的。它完全像SQL一樣。 但我有點不同意,因爲用這些語言編寫的腳本最終會轉換爲多個map

    19熱度

    7回答

    我有很多gzip'd日誌文件在s3中有3種類型的日誌行:b,c,i。我和c都是單級json: {"this":"that","test":"4"} b類型是深深嵌套的json。我碰到這個gist談論編譯一個罐子,使這項工作。由於我的Java技能不如恆星,我不知道從這裏做什麼。 {"this":{"foo":"bar","baz":{"test":"me"},"total":"5"}} 由於

    2熱度

    1回答

    我是PIG和Hadoop的新手。我寫了一個PIG UDF,它在String上運行並返回一個字符串。我實際上使用了一個已經存在的包含udf中業務邏輯的jar的類。類構造函數使用2個文件名作爲輸入,它用於構建用於處理輸入的一些字典。如何讓它在mapreduce模式下工作我試圖在豬本地模式下傳遞文件名,它工作正常。但我不知道如何使它在mapreduce模式下工作?分佈式緩存可以解決問題嗎? 這裏是我的代

    11熱度

    5回答

    有沒有將結果從Pig直接導出到像mysql這樣的數據庫的方法?

    2熱度

    1回答

    嘿, 我開始一個基於hadoop的超立方體,具有靈活的維數。 有沒有人知道任何現有的方法呢? 我剛剛發現PigOLAPSketch,但沒有代碼可以使用它。 另一種方法是來自lastfm的Zohmg,它使用hbase,但似乎很死。 我想我會開始豬解決方案,也許你有一些建議?

    8熱度

    1回答

    我有一組記錄,我從一個文件中加載,我需要做的第一件事是獲取列的最大值和最小值。 在SQL我會這樣子查詢做到這一點: select c.state, c.population, (select max(c.population) from state_info c) as max_pop, (select min(c.population) from state_info c) as min_p