6
最初的問題是給定的文件包含5GB的URL被訪問的最後一天,找到最常見的k頻繁的URL。這個問題可以通過使用哈希映射來計算不同URL的出現次數,並在最小堆的幫助下找到最高k,並取O(n log k)時間。查找最後一天或最後一小時或最後一分鐘的前k個訪問網址?
現在我想如果輸入是無限的在線數據流(而不是靜態文件),那麼我怎麼能知道最後一天的前k個URL?
或者是否有任何改進,我可以讓系統的最後一分鐘和最後一天以及最後幾小時動態獲取頂部k URL?
任何提示將不勝感激!
結帳http://stackoverflow.com/a/10190836/404145 – DiveInto