我正在開發一個擴展Hive以支持某些圖像處理功能的項目。擴展Hive:編寫既執行Map也執行Reduce操作的UDF
要做到這一點,我們需要讀入image
,將其分解爲多個文件,將每個文件傳遞給一個單獨的Map任務,並對其進行一些處理,然後將它們還原成一個圖像以返回給用戶。
爲此,我們計劃實施一個UDF
,它將在Hadoop中調用MapReduce
任務。然而,從我們所瞭解的UDF
只能運行either on the Map side OR the Reduce side of the HQL query
,而我們需要它在地圖和減少方之間理想地'bridge the gap
'。
Hive documentation
不是最有用的,我正在尋找一些關於從哪裏開始尋找更多信息的指針。 如果我在問題中不夠清楚,請隨時提出更多問題。