record-linkage

    1熱度

    1回答

    我正在尋找一些與MS SQL Server兼容的重複數據刪除軟件。我有一個相當廣泛和雜亂的表格,其中包含來自世界各地的所有不同語言的地址。該表設置爲處理作爲父/子記錄的模糊,因此需要處理匹配的一些功能(即,不僅僅是刪除模糊)。 編輯:這裏的結構 ParentID | MasterID | PropertyName | Address1 | Address2 | PostalCode | City

    1熱度

    1回答

    我有一個相當小的結構化記錄坐落在數據庫中的語料庫。給定一條記錄中包含的一小部分信息,通過一個Web表單提交(與表格模式的結構相同)(我們稱之爲測試記錄),我需要快速繪製一份記錄最有可能與測試記錄匹配,並提供關於搜索條件與記錄匹配程度的信心估計。此搜索的主要目的是發現是否有人試圖輸入與語料庫中的記錄重複的記錄。有一個合理的機會,測試記錄將是一個愚蠢的,並有一個合理的機會,測試記錄不會是一個騙局。 記

    1熱度

    2回答

    我正嘗試使用Duke Fast Deduplication Engine在我工作的公司的數據庫中搜索一些重複記錄。 我從這樣的命令行運行它: java -cp "C:\utils\duke-0.6\duke-0.6.jar;C:\utils\duke-0.6\lucene-core-3.6.1.jar" no.priv.garshol.duke.Duke --showmatches --verbo

    0熱度

    1回答

    我試圖合併兩個數據集合並&收購。它們都包含c.10'000個觀測值,每個觀測值有50-100個變量。其中一個包含有關實際交易的信息,而另一個包含交易如何融資的信息。 問題是沒有明確的唯一標識符。例如,我可以使用交易被宣佈的日期,但這不會是唯一的,因爲在某些日子裏有10個交易被宣佈。使用公司名稱很困難,因爲它們在兩個數據集中大多不相同。例如,如果在一個數據集中找到「Ebay」,另一個數據庫中同一個公

    0熱度

    1回答

    我的部門處理收集和顯示來自各種公司內部數據源的數據,以用於數據挖掘/公司儀表板。 我們遇到的一個重大挑戰是跨部門跨地參考地名。我們是一個相當大的組織,具有不同利益的部門可以爲任何一個地點進行自己的報告。一般而言,地名在跨部門報告中的EXACT名稱中存在很大差異。當位置經過一些改造 美妙的餐廳 美妙的餐廳 絕佳˚F&乙 ..:例如,一個位置可被稱爲Fabulous Cafe' 甚至Pr ofit中心

    2熱度

    2回答

    Fellegi-Sunter有沒有開源的實現?

    3熱度

    7回答

    我有一個個人數據表的幾個來源,像這樣: SOURCE 1 ID, FIRST_NAME, LAST_NAME, FIELD1, ... 1, jhon, gates ... SOURCE 2 ID, FIRST_NAME, LAST_NAME, ANOTHER_FIELD1, ... 1, jon, gate ... SOURCE 3 ID, FIRST_NAME, LAST_N

    5熱度

    2回答

    我有一個問題是有點高的水平,所以我會盡量做到儘可能具體。 我正在做很多研究,涉及將不同的數據集合與引用同一實體(通常是公司或金融安全性)的頭信息相結合。該記錄鏈接通常涉及標題信息,其中該名稱是唯一常見的主要標識符,但是其中通常可獲得一些次要信息(例如城市和州,操作日期,相對大小等)。這些比賽通常是一對多的,但可能是一對一或甚至多對多。我通常手工完成這個匹配,或者對清理過的子串進行非常基本的文本比較

    0熱度

    2回答

    請給我建議Java產品的工作(我寧願開源),它確實做到: 重複數據刪除 重複數據刪除得分 允許自定義重複數據刪除規則和評分規則。 請看例子: 我有一個輸入上演名爲「INPUT_DB」 我有一個表命名爲「INPUT_PERSONS」數據庫 有此表中的幾個字段: ID(一些無意義的代理主鍵) FIRST_NAME LAST_NAME SECOND_NAME BIRTH_DATE PASSPORT_SE

    0熱度

    3回答

    我正在考慮我的策略合併(和重複刪除)多個目錄的產品。 我將使用一個非sql數據庫,並且需要查詢部分重疊產品的N個目錄。 某些方面,如分類,標籤,說明書等必須標準化,我需要(通過UPC例如在每個目錄產品重複數據刪除)來跟蹤目錄庫中包含每一個獨特的項目。 我目前的想法是將個人目錄導入到自己的 表,然後用自建的算法,以確定「類似」的項目, 進行歸一化,然後創建一個最終的「大師」表,其中 包含標準化&去重