apache-pig

    6熱度

    3回答

    使用Apache的豬和文本 hahahah. my brother just didnt do anything wrong. He cheated on a test? no way! 我想匹配「哥哥只是沒有做任何事。」 理想情況下,我想匹配任何以「我的兄弟」開頭並以標點符號(句尾)或EOL結尾的內容。 望着豬文檔,然後鏈接到的java.util.regex.Pattern下面,我想我應該能

    0熱度

    1回答

    我想知道如何從聚合日誌中檢索數據?這是我有: - 約加載到HDFS未壓縮的日誌數據的30GB每天(這會很快增長到100GB) 這是我的想法: - 每天晚上這個數據與豬 處理 - 日誌讀取,拆分和定製的UDF類似檢索數據:timestamp,url,user_id(可以說,這是所有我需要的) - 從日誌條目,並加載到這個HBase的(記錄的數據將被無限存儲) 然後,如果我想知道哪些用戶在給定的時間範

    3熱度

    1回答

    給出的userid我的輸入數據,爲itemid格式: raw: {userid: bytearray,itemid: bytearray} dump raw; (A,1) (A,2) (A,4) (A,5) (B,2) (B,3) (B,5) (C,1) (C,5) grpd = GROUP raw BY userid; dump grpd; (A,{(A,1),

    7熱度

    6回答

    Pig是用於處理超大文件的數據流編程環境。豬的語言叫做豬拉丁語。 有沒有人知道PigLatin的參考手冊?我正在尋找包含該語言所有語法和命令描述的內容。不幸的是,豬維基的維基頁面被破壞了。

    4熱度

    1回答

    我試圖結合Hadoop,Pig和Cassandra來通過簡單的Pig查詢來處理Cassandra中存儲的數據。問題是我無法讓Pig創建實際與CassandraStorage配合使用的Map/Reduce作業。 我所做的是從contrib/pig(Cassandra的源代碼發行版)頂部的一個集羣機器上覆制了storage-conf.xml文件,然後將其編譯到cassandra_loadfun.jar

    0熱度

    1回答

    我有一個豬計劃,我試圖計算兩個行李之間的最小中心。爲了使它起作用,我發現我需要將袋子集中到一個數據集中。整個操作需要很長時間。我想從硬盤的包裝袋或者打開一個UDF中,或者能夠通過另一個關係到UDF而不需要協同組...... 代碼: # **** Load files for iteration **** register myudfs.jar; wordcounts = LOAD 'input

    14熱度

    3回答

    有人可以解釋一下MapReduce如何與Cassandra.6搭配使用嗎?我已經讀過了字數統計的例子,但我並不完全瞭解Cassandra的結局與「客戶端」的結局。 https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/ 舉例來說,假設我使用Python和Pycassa,我將如何加載新的地圖功能降低,然後再打電話嗎?我

    9熱度

    2回答

    Apache的豬將數據存儲到SequenceFile可以使用的PiggyBank SequenceFileLoader負荷的Hadoop序列文件數據在那裏可以寫入Pig的Hadoop序列文件?

    0熱度

    2回答

    我有一個豬腳本,它激活了另一個python程序。 我可以在自己的hadoop環境中這樣做,但是當我在亞馬遜地圖中運行我的腳本時,我總是失敗減少WS。 日誌說: org.apache.pig.backend.executionengine.ExecException:ERROR 2090:接收的錯誤在處理減少計劃: '' 失敗,退出狀態:127 在org.apache.pig .backend.ha

    4熱度

    3回答

    假設我有豬以下輸入: some ,我想將其轉換成: s so som some 我還沒有(還)找到了一種在拉丁語中迭代chararray的方法。我已經找到了TOKENIZE函數,但它在字邊界上分裂。 那麼「豬拉丁」可以這樣做還是這需要Java類來做到這一點?