嘿,剛開Hadoop和好奇在MapReduce的最好的辦法是,如果你的日誌文件看起來像這樣來算獨立訪問者開始......使用Hadoop來計算獨特訪客的最佳方式是什麼?
DATE siteID action username
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview tom
05-05-2010 siteA pageview jim
05-05-2010 siteB pageview bob
05-05-2010 siteA pageview mike
和你想找出每個站點每個站點的唯一訪問者?
我在想映射器會發出siteID \ t用戶名 ,並且reducer會保留每個key的set()唯一用戶名,然後發出該set的長度。但是,這可能會將數百萬用戶名存儲在內存中,這似乎不正確。任何人都有更好的方法?
我使用python流的方式
感謝