熊貓模糊檢測重複

如何使用模糊匹配大熊貓中檢測到重複行（有效）熊貓模糊檢測重複

如何找到一列與所有其他的人的副本沒有一個巨大的轉換的循環row_i toString（），然後將其與所有其他的？

2016-09-14 Georg Heiler

FuzzyWuzzy是一個編輯距離的實現，這將是一個非常適合在numpy或類似構造中配對的距離矩陣。要檢測「重複」或接近匹配，您必須至少從每行到其他行進行比較，否則您永遠不會知道兩個是否彼此靠近。請參閱http://stackoverflow.com/questions/24089973/python-numpy-pairwise-edit-distance，瞭解在scipy中使用pdist的解決方案。 –

您可能會近似它 - 請參閱http://cs.stackexchange.com/questions/2093/efficient-map-data-structure-supporting-approximate-lookup/2096#2096 –

或者看中：https：// en .wikipedia.org /維基/ BK-樹。不確定這些對你的情況是否有幫助。 –

不是熊貓的具體情況，但在Python生態系統中，dedupe python library似乎按照你的意願去做。特別是，它允許您分別比較每行的每一列，然後將信息組合成匹配的單個概率分數。

來源

2016-09-18 02:52:09 fgregg

熊貓模糊檢測重複

回答

相關問題