我有一個包含一些重複項的Json文件,我正在尋找刪除它們的方法。我的Json文本的開始的兩個例子:刪除Json文件中的重複項
"date": "May 16, 2012 Wednesday", "body": "THE future of one of Scotland's most important listed buildings .... World Monuments Fund. o See a picture gallery of Mavisbank House at scotsman.com/scotland ", "title": "Rescue deal to bring Adam mansion back from brink"
"date": "May 16, 2012 Wednesday", "body": "The future of one of Scotland's most important listed buildings .... World Monuments Fund.", "title": "Rescue deal to bring Adam mansion back from brink"
我已經削減中間的文字,由於它的擴展和無關緊要,因爲他們完全匹配。正如我們所看到的文字幾乎100%匹配,除了開始THE
與The
和最後(額外句子:o See a picture gallery of Mavisbank House at scotsman.com/scotland
)。在這一行中,我會想方設法找到重複項和II)刪除重複項之一(注意它們也可以是多個重複項)。我剛開始用Python進行編程,我不確定如何處理這個問題。任何幫助真的很感激!
親切的問候!
「正如我們可以看到文本幾乎100%匹配」 - 但是**完全**構成重複? –
如果這些行可以與_完全相同,您可以使用'set'來消除重複項。 _Partly_相等的字符串仍然被認爲是不同的。您可以嘗試計算漢明距離,以查看字符串的「多少」不同,然後決定是否刪除它們。 – ForceBru