我有一個代碼,我從大型語料庫中提取bigrams,並將它們連接/合併爲unigrams。 'may','be' - >也許。當然,語料包含許多標點符號,但我也發現它包含其他字符,如表情符號......我的計劃是在標籤中加標點符號,如果這些字符不在一行中,則打印行。也許我應該改變我的方法,只打印只包含字母和其他字符的行,因爲我不知道語料庫中有哪些字符。如何才能做到這一點?我確實需要爲代碼的第一部分保留這些其他字符,以便打印出實際上不存在的bigrams。我的代碼的最後一行是在此刻:如何從輸出中刪除除字母之外的其他字符的行?
counted = collections.Counter(grams)
for gram, count in sorted(counted.items()):
s = ''
print (s.join(gram))
和輸出我得到的是:
!aku
!bet
!brå
!båda
這些線路不會受到任何使用我的......真的很感激一些幫幫我! :)
謝謝!事情是瑞典文,所以我需要保持å,ä,ö。使它更復雜一點,或者我可以將整個字母寫成valid_chars? –
如果設置了<= valid_chars',怎麼辦? –
@PeterWood,yap,這是它應該寫的方式:)謝謝,編輯。 – Elisha