我得到這個在面試:模塊的獨立訪客數
讓我們假設你得到了任務:寫一個模塊,輸入其網站訪客的IP位址的無限流將指導 。
在任何時候模塊應該能夠快速回答,如何收集許多獨特的用戶(唯一性由IP地址 地址指定)。你怎麼會在條件描述解決這個問題(詳細)的方法 說:
一)它需要獲得獨立訪問者的確切數額
b)用小的誤差不超過3近似值-4%是可以接受的
你在這裏看到什麼解決方案?我發現關於流算法幾個白皮書,但我不知道這是否是appliable在這種情況下與否:
http://www.cs.berkeley.edu/~satishr/cs270/sp11/rough-notes/Streaming.pdf http://en.wikipedia.org/wiki/Count-distinct_problem
如果我給了這個任務,我會指出a)和b)的要求是矛盾的。然後我會問我有多少記憶......以及「無限」流真的是多久。 – 2015-02-24 13:01:00
我們假設RAM是8 Gb。 – paus 2015-02-24 13:05:22