假設我有一堆帶有噪聲的類似字符串,主要是錯誤地連接/斷開連接。如:使用不正確的分隔符和連接詞標準化文本
"Once more unto the breach, dear friends. Once more!"
"Once more unto the breach , dearfriends. Once more!"
"Once more unto the breach, de ar friends. Once more!"
"Once more unto the breach, dear friends. Once more!"
我該如何將每個人都歸一化爲同一組詞?即
["once" "more" "unto" "the" "breach" "dear" "friends" "once" "more"]
謝謝!
你總是知道你想要的句子應該是什麼樣子嗎? – RonaldBarzell
不幸的是不是 – konr
嗯,到目前爲止你做了什麼? – RonaldBarzell