2011-03-18 45 views
2

作爲我們研究小組的一部分,我們正在收集大量的位置數據。我們的數據看起來像(用戶ID,緯度/長度座標,時間戳)。還有其他的元數據也涉及到,但這不是相關的。 我們每週收集大約2-3百萬條記錄,並期望在適當的時間收集大約一年的數據。存儲和處理大量的時間 - 空間數據

我真的很喜歡關於存儲和處理這些數據的技巧。我們希望能夠回答類似於以下的查詢:

(1)對於給定的位置,誰在指定的時間段內靠近該位置(在指定的距離內)?

(2)哪些地點彼此靠近?

這是一般的想法。我們不需要實時響應,但什麼是好的數據庫(或其他數據存儲軟件)?我遇到過人們在談論k-d樹木,這是否符合這種規模?我需要什麼樣的硬件?我希望能夠指向一般戰略。我們如何存儲這些數據?將它全部存儲在數據庫中是否有意義?哪些數據/軟件/軟件包適用於距離/半徑計算?

我們對Python/Linux最爲熟悉,寧願遠離Java並喜歡開源/免費軟件。我們對這一切都是陌生的,指向書和文件也是有用的。所有和任何建議將會非常有用。

+0

我會使用MySQL,只是找出一些MySQL查詢。 – 2011-03-18 15:24:22

回答

1

PostGIS可能是你在找什麼。

+0

您可以使用Python訪問和編寫腳本。 GDAL/OGR還可以幫助從數據庫創建光柵和矢量數據(並且還具有Python綁定)。 – Benjamin 2011-03-18 15:49:37

+1

如果它只是uid,緯度/經度對和時間戳,PostGIS是矯枉過正的。 SimpleGeo人已經博客並介紹了很多關於大規模擴展簡單地理數據的方法 - 請閱讀。 – sgillies 2011-03-18 18:34:26