1
Q
熊貓模糊檢測重複
A
回答
1
不是熊貓的具體情況,但在Python生態系統中,dedupe python library似乎按照你的意願去做。特別是,它允許您分別比較每行的每一列,然後將信息組合成匹配的單個概率分數。
相關問題
- 1. Python熊貓模糊邏輯
- 2. 熊貓和模糊匹配
- 3. 貓鼬 - 檢測重複場
- 4. 熊貓模糊小組彙總統計
- 5. 熊貓系列元素布爾檢查是模糊
- 6. 如何檢測模糊的DST重疊?
- 7. 通過模糊匹配檢測重名
- 8. 熊貓 - 重複迭代行
- 9. 合併重複列熊貓
- 10. 重複項使用熊貓
- 11. 熊貓重複的值
- 12. 熊貓標籤重複
- 13. 熊貓崩潰重複DataFrame.reset_index()
- 14. 大熊貓重塑行重複
- 15. EmguCV檢測圖像模糊
- 16. 重置熊貓
- 17. 複合詞使用熊貓進行大型數據集檢測
- 18. 熊貓:獲取重複索引
- 19. 熊貓DataFrame按行重複排序
- 20. 獲取重複的行與大熊貓
- 21. 熊貓sumif與重複列名
- 22. 熊貓GROUPBY範圍,允許重複
- 23. 熊貓LTM與重複的總和
- 24. 重複值大熊貓據幀
- 25. 在熊貓數據框中重複行
- 26. 將重複值插入熊貓行
- 27. 熊貓合併產生重複列
- 28. 大熊貓追加重複欄目
- 29. 如何消除熊貓的重複值?
- 30. 在熊貓中選擇重複行
FuzzyWuzzy是一個編輯距離的實現,這將是一個非常適合在numpy或類似構造中配對的距離矩陣。 要檢測「重複」或接近匹配,您必須至少從每行到其他行進行比較,否則您永遠不會知道兩個是否彼此靠近。請參閱http://stackoverflow.com/questions/24089973/python-numpy-pairwise-edit-distance,瞭解在scipy中使用pdist的解決方案。 –
您可能會近似它 - 請參閱http://cs.stackexchange.com/questions/2093/efficient-map-data-structure-supporting-approximate-lookup/2096#2096 –
或者看中:https:// en .wikipedia.org /維基/ BK-樹。不確定這些對你的情況是否有幫助。 –