2012-05-30 65 views
1

我見過documentatio here,但我承認我覺得它很缺乏。我想知道是否有人可以給我一些關於將Python UDF合併到Pig中的例子。特別是Pig中的Python UDF

  • 在Pig 0.10之前,布爾類型不存在,但FILTER操作需要將結果解析爲布爾值。如果我沒有最新版本,我是否會永遠詛咒回到10並使用FILTER alias BY py_udf.f(field) > 0
  • AlgebraicAccumulatorFilter接口是否無法從Python訪問?
  • 我可以不訪問分佈式緩存嗎?
  • 儲存/載入功能呢?

回答

2

Python UDF非常有限。您不能使用代數或累加器接口,也不能使用Python編寫LoadFunc。對於比映射操作更復雜的任何事情,您都可能需要使用Java UDF。

也就是說,具有動態outputSchema的更復雜的Python UDF可以在http://ragrawal.wordpress.com/2013/02/24/on-writing-python-udf-for-pig-a-perspective/找到。這可能不會對您有所幫助,但它會讓您更好地理解Python UDF可以執行的操作。

0

這可能不是您回答一些具體的問題,但this blog post和鏈接代碼包含使用豬與Python的幾個很好的例子,不包括存儲/加載的使用及其使用Python的互動。