1
我有一個現有的代碼用於創建一個文檔中的所有bigrams表,但它刪除了撇號。如何調整此代碼以將單詞「I've」作爲單個詞語處理?在R中創建bigrams時如何保留撇號?
text1 = scan(file.choose(), what="character",sep="\n")
text1 <- tolower(text1)
tokens <- unlist(strsplit(text1, "[^a-z]+"))
tokens <- mytable[tokens != ""]
tokens2 <- c(tokens[-1], ".")
bigrams <- paste(tokens, tokens2)
freq <- sort(table(bigrams), decreasing=T)
write.csv(file = "bigram count.csv" , x=freq, row.names = FALSE)
例如,短語「我很開心」將輸出「我有」和「很開心」