1

如何使用模糊匹配大熊貓中檢測到重複行(有效)熊貓模糊檢測重複

enter image description here

如何找到一列與所有其他的人的副本沒有一個巨大的轉換的循環row_i toString(),然後將其與所有其他的?

+0

FuzzyWuzzy是一個編輯距離的實現,這將是一個非常適合在numpy或類似構造中配對的距離矩陣。 要檢測「重複」或接近匹配,您必須至少從每行到其他行進行比較,否則您永遠不會知道兩個是否彼此靠近。請參閱http://stackoverflow.com/questions/24089973/python-numpy-pairwise-edit-distance,瞭解在scipy中使用pdist的解決方案。 –

+0

您可能會近似它 - 請參閱http://cs.stackexchange.com/questions/2093/efficient-map-data-structure-supporting-approximate-lookup/2096#2096 –

+0

或者看中:https:// en .wikipedia.org /維基/ BK-樹。不確定這些對你的情況是否有幫助。 –

回答

1

不是熊貓的具體情況,但在Python生態系統中,dedupe python library似乎按照你的意願去做。特別是,它允許您分別比較每行的每一列,然後將信息組合成匹配​​的單個概率分數。