我有一個搜索日誌與時間,地點和查詢字段。我想從特定時間之間的某個特定地點找到查詢最多的單詞。所有的字段,即日期,時間,query_String是chararrays。我有下面的豬腳本,但它沒有做什麼要求。大多數出現在特定時間之間的搜索
Data = LOAD 'data' USING CustomPigStorage();
FClients = FILTER Data BY NOT(country is null);
Clients = FOREACH FClients GENERATE date,time, country,query_string as query;
grp = group Clients by (query, country, date, time);
wth_count = foreach grp generate FLATTEN(group), COUNT(Clients) as count;
例如,我希望結果是「下午2點到3點之間,你好從美國搜索了4次」。 我基本上被Count()函數弄糊塗了。對豬來說是相對較新的。我相信我的計數()在計數我擁有的記錄總數。
我想根據查詢分組客戶端,稍後想分組查詢的計數。這是每個查詢分組的次數。 – RFT 2012-07-16 15:45:03
你能提供一個樣本輸入和期望的輸出嗎? – alexeipab 2012-07-17 05:47:45
輸入:日期,時間,國家,查詢 輸出:查詢,國家,日期,(時間1,時間2 ..時間n),(日期出現的次數) 基本上一天查詢所有時間出現並計算查詢出現在特定日期的次數 2012/3/1,16:04:01,美國,西部4日 2012/3/1,16:04:02,美國,西部第4 輸出應如下所示: west 4 st,US,2012/3/1,(16:04:01,18:04:02),2 – RFT 2012-07-17 17:35:15