apache-pig

6熱度

3回答

使用Apache的豬和文本 hahahah. my brother just didnt do anything wrong. He cheated on a test? no way! 我想匹配「哥哥只是沒有做任何事。」理想情況下，我想匹配任何以「我的兄弟」開頭並以標點符號（句尾）或EOL結尾的內容。望着豬文檔，然後鏈接到的java.util.regex.Pattern下面，我想我應該能

0熱度

1回答

從聚集的博客數據中檢索信息，該怎麼做？

我想知道如何從聚合日誌中檢索數據？這是我有： - 約加載到HDFS未壓縮的日誌數據的30GB每天（這會很快增長到100GB）這是我的想法： - 每天晚上這個數據與豬處理 - 日誌讀取，拆分和定製的UDF類似檢索數據：timestamp，url，user_id（可以說，這是所有我需要的） - 從日誌條目，並加載到這個HBase的（記錄的數據將被無限存儲）然後，如果我想知道哪些用戶在給定的時間範

3熱度

1回答

兩字組組合在豬

給出的userid我的輸入數據，爲itemid格式： raw: {userid: bytearray,itemid: bytearray} dump raw; (A,1) (A,2) (A,4) (A,5) (B,2) (B,3) (B,5) (C,1) (C,5) grpd = GROUP raw BY userid; dump grpd; (A,{(A,1),

7熱度

6回答

Apache Pig Latin的參考手冊

Pig是用於處理超大文件的數據流編程環境。豬的語言叫做豬拉丁語。有沒有人知道PigLatin的參考手冊？我正在尋找包含該語言所有語法和命令描述的內容。不幸的是，豬維基的維基頁面被破壞了。

4熱度

1回答

通過Pig提交地圖/縮小作業時捆綁罐子？

我試圖結合Hadoop，Pig和Cassandra來通過簡單的Pig查詢來處理Cassandra中存儲的數據。問題是我無法讓Pig創建實際與CassandraStorage配合使用的Map/Reduce作業。我所做的是從contrib/pig（Cassandra的源代碼發行版）頂部的一個集羣機器上覆制了storage-conf.xml文件，然後將其編譯到cassandra_loadfun.jar

0熱度

1回答

如何從Yahoo PigLatin UDF中將文件加載到DataBag中？

我有一個豬計劃，我試圖計算兩個行李之間的最小中心。爲了使它起作用，我發現我需要將袋子集中到一個數據集中。整個操作需要很長時間。我想從硬盤的包裝袋或者打開一個UDF中，或者能夠通過另一個關係到UDF而不需要協同組...... 代碼： # **** Load files for iteration **** register myudfs.jar; wordcounts = LOAD 'input

14熱度

3回答

如何使用Cassandra的Map Reduce或不帶豬？

有人可以解釋一下MapReduce如何與Cassandra.6搭配使用嗎？我已經讀過了字數統計的例子，但我並不完全瞭解Cassandra的結局與「客戶端」的結局。 https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/ 舉例來說，假設我使用Python和Pycassa，我將如何加載新的地圖功能降低，然後再打電話嗎？我

9熱度

2回答

Apache的豬

Apache的豬將數據存儲到SequenceFile可以使用的PiggyBank SequenceFileLoader負荷的Hadoop序列文件數據在那裏可以寫入Pig的Hadoop序列文件？

0熱度

2回答

在亞馬遜Mapreduce中運行的豬腳本中的STREAM關鍵字

我有一個豬腳本，它激活了另一個python程序。我可以在自己的hadoop環境中這樣做，但是當我在亞馬遜地圖中運行我的腳本時，我總是失敗減少WS。日誌說： org.apache.pig.backend.executionengine.ExecException：ERROR 2090：接收的錯誤在處理減少計劃： '' 失敗，退出狀態：127 在org.apache.pig .backend.ha

4熱度

3回答

拆分輸入到子豬（Hadoop的）

假設我有豬以下輸入： some ，我想將其轉換成： s so som some 我還沒有（還）找到了一種在拉丁語中迭代chararray的方法。我已經找到了TOKENIZE函數，但它在字邊界上分裂。那麼「豬拉丁」可以這樣做還是這需要Java類來做到這一點？