2012-06-23 72 views
1

我對cassandra及其數據模型比較陌生。我有一大組數據,這些數據由染色體上的位置(染色體:起始 - 終止)描述,其中我們有24條染色體,起始和終止是整數。我希望支持的查詢是查找基因組中與所有其他位置重疊的所有位置。如果沒有其他想法,我可以創建一個簡單的基於R樹的「索引」方案,但我認爲有人可能會遇到這個問題並提出解決方案。線性空間數據的Cassandra數據模型

回答

1

當你需要在2個維度進行查詢,或者您可以使用其他數據庫一樣,支持這些類型的geospacial indexing/queries MongoDB中看到邊界查詢

在卡桑德拉,我認爲你能做的最好是使用geocelldoc)或其他空間填充曲線

您將開始和結束轉換爲geohash,對於您的每個數據,然後您將能夠搜索邊界框,以[s1,s2]開始並以[e1結束,e2],通過搜索geohash(s1,e1)和geohash(s2,e2)之間的地理單元,在bouding框中給出連續位置