2014-01-17 57 views
0

我有一個樣本文件與以下信息 Ipaddress:顯示,時間記錄次數

IPADDRESS -1,10-:58

IPADDRESS -1,11-:50

IPADDRESS-1-10:58

IPADDRESS-2,11:50

IPADDRESS -2,10-:58

個IPADDRESS-2,10:58

預期的輸出應該 Ipaddress:顯示時間,算上

ip地址-1,10:58,2

ipadress-1,11:50,1

IPADDRESS-2,10:58,2

ip地址-2,11:50,1

這個輸出是需要了解的IP多少次打在服務器特定的時間框架。

,我嘗試使用HIVE,並能夠使用Excel(ODBC)獲取報告。但無法在PIG中查找相同的查詢。

回答

1

這個腳本會做的魔力:

A = load 'test.txt' AS (ip:chararray, time:chararray); 
--DESCRIBE A; 
--DUMP A; 

B = GROUP A BY (ip, time); 
--DESCRIBE B; 
--DUMP B; 

C = FOREACH B GENERATE group, COUNT(A); 
DUMP C;