2015-05-14 37 views
0

我一直在努力尋找一個爬行器。網址列表正在存儲在hbase表中,並帶有一個用於引用計數的計數器。基於櫃檯的數十億行排序hbase表

我必須對錶進行排序,在任何時候獲得最高1000的URL保持專注於高價值的網址履帶。

一個選項是使用豬腳本與過濾器和掃描hbase。 其他選項是維護另一個表,引用計數作爲關鍵字,儘管如此管理和存儲頭頂增加。

請提出一個更好的方法來做到這一點。

回答

0

正確的解決方案是一個啓動的週期性地圖降低在桌子上,以在數據庫中的前N個網址的服務。

因此,或者定期查詢該服務或將其更新表與當前的熱門網址。