2014-04-04 75 views
0

我有一個類似的字段蜂房表中選擇前10蜂巢查詢:每個類別

賣家,catgid,subcatgid,PRODID,productdetail1,productdetail2 ....

現在,我想提取每個子類別(賣方,catgid,subcatgid組合)的前10個產品(基於計數)的列表,並且需要如下結果:

Seller1,catg1,subcatg1,{{prodid1,prod1details},{prodid2 ,prod2details},{prodid3,prod3details},{prodid4,prod4details} ....}

賣家2,catg2,subcatg2,{{prodid5,prod5details},{prodid6,prod6details},{prodid7,prod7details},{prodid8,prod8details} ....}

所以基本上我想要的產品的詳細信息(優選在JSON格式)的所有前10名產品,直到每個子類別 級別。 這甚至可以通過配置單元查詢嗎?如果是的話,那麼你能否提供一個例子?如果沒有,有沒有其他辦法?

回答

0

莫希特, 看看在Brickhouse的 'collect_max' UDF(http://github.com/klout/brickhouse)。我認爲它可以爲更大的數據集提供更具擴展性的解決方案(因爲您可以減少您需要執行的排序數量)。

+0

我需要做的是在每個子類別中對前10名產品的日誌數據(智能計數)運行查詢。增加更多複雜性的是我需要產品的所有信息。現在,當我只用subcatg,pid進行分組時,我只能選擇相同的字段。但我希望該產品的所有數據與prodname,proddesc,price,mrp,imageurl等subcatg&prodid在同一行。由於一些產品的價格和產品信息不斷變化,我希望爲pid選擇最新的列值(根據日期字段),如果我們能夠通過subcatg,pid進行分組。 –