我試圖刪除標點符號化python中的句子,但我有幾個「condtitions」,我希望它忽略使用標點符號化。一些例子是當我看到一個URL或電子郵件地址或某些符號旁邊沒有空格時。例如:Python - 帶條件的正則表達式標記器
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
tokenizer.tokenize("please help me ignore punctuation like . or , but at the same time don't ignore if it looks like a url i.e. google.com or google.co.uk. Sometimes I also want conditions where I see an equals sign between words such as myname=shecode")
現在輸出看起來像
[ '請', '救命', '我', '忽略', '標點符號', '喜歡', '或', 'but', 'at',''','same','time','do not','ignore','if','it','looks',' 'like','a' ','url','i','e','google','com','or','google','co', '英國','有時','我',' ''','條件','where','I', 'see','an','equals','sign','between','words','such','as' 'myname','shecode']
但我真的希望它看起來就像是
[ '請', '救命', '我', '忽略', '標點符號', '喜歡', '或', 'but', 'at',''','same','time','do not','ignore','if','it','looks',' 'like','a' ','url','我','e','google.com','或','google.co.uk', '有時','我','也','想','條件','where','I','see', 'an','等於','符號','之間','文字','such','as', 'myname = shecode' ]
嘗試使用 「從nltk.tokenize進口word_tokenize」。我不確定它是否能解決你的目的。但嘗試一次。謝謝。 – Gunjan
您應該a)預先標記輸入的空格; b)檢查每件作品是否是網址;和c)以不同的方式處理url和非url標記。 – alexis