duplicate-data

    1熱度

    2回答

    本週早些時候,我問了一個關於在運行時按順序過濾掉重複值的問題。雖然有一些很好的答案,但是我所經歷的數據量卻很緩慢並且不可行。 當前我們的數據庫中,事件值不會被過濾。產生重複的數據值(具有不同的時間戳)。我們需要處理的數據在運行時,並在數據庫級別它的時間成本(以及不能將它拉成代碼,因爲它使用了很多存儲特效)導致高查詢時間。我們需要一個數據結構,我們可以查詢這個數據存儲已被過濾掉,因此運行時不需要額外

    2熱度

    6回答

    我有一個rowID,經度,緯度,businessName,url和標題表。這可能是這樣的: rowID | long | lat | businessName | url | caption 1 20 -20 Pizza Hut yum.com null 如何刪除所有重複的,但只保留具有URL(第一優先級)的人,或保留有一個標題,如果對方沒有一個一個URL(第二優先級)並刪除

    6熱度

    5回答

    我有兩個表,我需要從第一個表中刪除行,如果在第二個表中存在一個行的確切副本。 有沒有人有我如何去在MSSQL服務器這樣做的例子?

    2熱度

    11回答

    這是一次冒險。我開始與循環重複查詢位於my previous question,但每個循環將遍歷所有17萬條記錄,這意味着它將需要幾周(只是運行*select count * from MyTable*需要我的服務器使用MSSQL 2005 4:30分鐘)。我從這個網站和這post閃閃發光的信息。 並已到達下面的查詢。問題是,這是否是針對任何類型的性能在1700萬條記錄上運行的正確類型的查詢?如果

    0熱度

    4回答

    我在MarkLogic XML數據庫中有一堆文檔。一個文件有: <colors> <color>red</color> <color>red</color> </colors> 有多種顏色不是問題。有多種顏色都是紅色是一個問題。我如何找到重複數據的文檔?

    2熱度

    3回答

    他是一個尋找最多Pythonic解決方案的有趣問題。假設我有一個映射列表{'id': id, 'url': url}。列表中的某些id是重複的,我想創建一個新列表,刪除所有重複項。我想出了以下功能: def unique_mapping(map): d = {} for res in map: d[res['id']] = res['url'] retu

    14熱度

    10回答

    我有一個簡單的聯繫人數據庫,但我遇到了用戶輸入重複數據的問題。我已經實現了一個簡單的數據比較,但不幸的是,輸入的重複數據並不完全相同。例如,名字拼寫錯誤,或者一個人放入'Bill Smith',另一個人放入'William Smith'替換同一個人。 那麼是否有某種算法可以給出一個條目與另一條條目類似的百分比?

    6熱度

    7回答

    我有一個具有常規3層設計的Web應用程序(ASP.Net 3.5)。如果用戶點擊按鈕回發,則會運行一些中間和數據層代碼,並刷新屏幕。如果用戶在第一次回發完成之前多次單擊該按鈕,我的邏輯就會感到困惑,應用程序最終會處於無效狀態。 防止這種情況的最佳方法是什麼? 我可以使用JavaScript來禁用按鈕,但這只是隱藏了問題。我如何構建業務層和數據層來處理此問題?