我有一個數據幀,其中包含名稱,我試圖結合相似的名稱。例如:熊貓過濾器/結合相似的字符串值
| name | foo_val |
| --------- | ------- |
| Andrew | 2 |
| Braden | 1 |
| Cheryl | 4 |
| Cheryl :D | 1 |
| Christian | 1 |
| Derrick | 2 |
| Derrick L | 2 |
...
等...在那裏我會要合併的行(和foo_val的值);如果內容(如謝麗爾和德里克在上面很相似例如),所以它看起來像下面這樣:
| name | foo_val |
| --------- | ------- |
| Andrew | 2 |
| Braden | 1 |
| Cheryl | 5 |
| Christian | 1 |
| Derrick | 4 |
我不知道大熊貓以及我想,但我已經在duplicated
(如df.duplicated('name')
)和groupby
看了以及merge
但我很確定這些不是我想要什麼(很可能是錯的......)。在那個筆記上,我搜索了很多,但假設之前已經詢問過,所以如果我錯過了它們,請指出其他問題/答案...
我可以想象一種在純Python與迭代,但很想知道這是否可能在熊貓...
這個問題的真正訣竅是定義什麼算作一個類似的名字。 – Alter
是的,我明白了! –