我是一個完整的新手,因此無法通過查看過去的帖子找到解決方案。我有一個地理數據庫(ESRI ArcMAP,大約70k條記錄),其中包含從兩個數據庫中合併的道路殺死數據。查找近似重複查詢
Ex。
Date_, Route, MilePost, Database
10/1/2012, ML34, 113, Animal_Vehicle
10/2/2012, ML34, 113.4, Carcasses
10/2/2012, ML16, 86, Carcasses
我想清理兩個數據庫之間的重複記錄。 MilePost
,Route
和Date_
的記錄已被刪除。問題是這樣的:Animal_Vehicle
可以在任何時間或一週中的某一天記錄衝突,而來自Carcasses
數據庫的記錄僅在正常工作時間記錄。因此,在前一天或週末過後的幾小時內由Animal_Vehicle
記錄的屍體重複產生。然後在第二天早上或在星期一(或假期週末時的星期二)將記錄複製Carcasse
。另一個問題是Animal_Vehicle MilePosts
傾向於四捨五入到最接近的半英里,而Carcasses MilePosts
更精確。
的目標是建立一個查詢或算法返回兩個Database
值之間配對的記錄,因此當Database=Carcasses
,該查詢返回記錄與Database=Animal_Vehicle
,其中MilePost
是+/-的Carcasses
紀錄的0.4, Date_
是Carcasses
記錄的最後四天內。它會返回示例數據的前兩行。
任何反應非常感謝!謝謝!
查看http://code.google.com/p/google-refine/,可能它對您的任務很有用。 – AndreKR
這是一個有趣的鏈接,謝謝! – user1938198