2013-08-29 43 views
0

我正在使用HBase存儲webtable內容,比如google如何使用bigtable。
供參考google bigtable
我的問題是在RowKey,我們應該如何形成它。
谷歌正在做的是以相反的順序保存URL,你可以在PDF文檔「com.cnn.www」中看到,這樣所有與cnn.com相關的鏈接將在GFS的同一個塊中管理,很容易掃描。
如谷歌使用我可以使用相同的事情,但不會這將是冷靜,如果我使用某種算法來壓縮URLHbase RowKey設計模式

對於如。這樣做背後

RewKey        | Google Bigtable      | Algorithm output 
www.cnn.com/index.php    | com.cnn.www/index.php    | 12as/435 
www.cnn.com/news/business/index.html | com.cnn.www/news/business/index.html | 12as/2as/dcx/asd 
www.cnn.com/news/sports/index.html | com.cnn.www/news/sports/index.html | 12as/2as/eds/scf 

原因是rowkey會隨着每Hbase design schema較短(在主題中提到6.3.2.3。Rowkey長度)。

那麼什麼我需要你們是知道我是正確的在這裏....
另外,如果我是正確的,我應該用什麼算法。我使用Python作爲一種編程語言,所以代碼將會壓倒我...

回答

1

當你縮短URI時,爲主機和路徑單獨進行並連接,以便你的密鑰可以像hostHash一樣! pathHash一方面將它保持簡短,並將來自同一網站的所有URI集中在一起

+0

+1謝謝你的回答...所以你的意思是說我在想什麼是正確的軌道... 。還有如何縮短URI的算法... – Wazzzy

+1

看到這個q http://stackoverflow.com/questions/742013/how-to-code-a-url-shortener –

+0

看看這個.... http ://www.hashids.org/ – Wazzzy