2
我們有一個自定義可寫值對象的SequenceFile,該對象實質上等同於Pig中的一個複雜包數據類型。Apache Pig:我們可以將自定義的Writable對象轉換爲Pig格式嗎?
有沒有一種方便的方法,我們可以編寫自定義函數將hadoop Writable對象轉換爲bag數據類型,然後使用豬腳本處理它?
我們有一個自定義可寫值對象的SequenceFile,該對象實質上等同於Pig中的一個複雜包數據類型。Apache Pig:我們可以將自定義的Writable對象轉換爲Pig格式嗎?
有沒有一種方便的方法,我們可以編寫自定義函數將hadoop Writable對象轉換爲bag數據類型,然後使用豬腳本處理它?
一種選擇是看elephant-bird - 如果你向下滾動這個GitHub的頁面自述部分,它有一個關於豬節:
豬
- 包括轉換器接口用於車削元組到可寫入和反之亦然
我從來沒有用過它,我想你必須進行nt自己的一些代碼(可能是com.twitter.elephantbird.pig.util.WritableLoadCaster
抽象類和SequencedFileLoader
的擴展使用您的負載腳輪實施加載您的序列文件
轉換器應實現自定義可寫。 elephantbird/mahout子項目('VectorWritableConverter')中有一個很好的例子。 – 2013-05-14 14:28:03
這很有趣。我們會嘗試並告訴你我們是否成功。謝謝! – 2013-05-15 02:06:02