0
我正在使用HBase存儲webtable內容,比如google如何使用bigtable。
供參考google bigtable
我的問題是在RowKey,我們應該如何形成它。
谷歌正在做的是以相反的順序保存URL,你可以在PDF文檔「com.cnn.www」中看到,這樣所有與cnn.com相關的鏈接將在GFS的同一個塊中管理,很容易掃描。
如谷歌使用我可以使用相同的事情,但不會這將是冷靜,如果我使用某種算法來壓縮URLHbase RowKey設計模式
對於如。這樣做背後
RewKey | Google Bigtable | Algorithm output
www.cnn.com/index.php | com.cnn.www/index.php | 12as/435
www.cnn.com/news/business/index.html | com.cnn.www/news/business/index.html | 12as/2as/dcx/asd
www.cnn.com/news/sports/index.html | com.cnn.www/news/sports/index.html | 12as/2as/eds/scf
原因是rowkey會隨着每Hbase design schema較短(在主題中提到6.3.2.3。Rowkey長度)。
那麼什麼我需要你們是知道我是正確的在這裏....
另外,如果我是正確的,我應該用什麼算法。我使用Python作爲一種編程語言,所以代碼將會壓倒我...
+1謝謝你的回答...所以你的意思是說我在想什麼是正確的軌道... 。還有如何縮短URI的算法... – Wazzzy
看到這個q http://stackoverflow.com/questions/742013/how-to-code-a-url-shortener –
看看這個.... http ://www.hashids.org/ – Wazzzy