我最近在使用R的文本挖掘中遇到了一些問題。 目的是在新聞中找到有意義的關鍵詞,例如「智能車」和「數據挖掘」。 比方說,如果我有一個字符串,如下所示: "IBM have a great success in the computer industry for the past decades..."
刪除停用詞( 「有」, 「一」, 「中」, 「中」, 「爲」)後, "IBM great su
我試圖從我的數據文本分析中刪除拼寫錯誤。所以我正在使用量子包的字典功能。它適用於Unigrams。但它爲Bigrams提供了意想不到的輸出。不知道如何處理拼寫錯誤,以便他們不會潛入我的Bigrams和Trigrams。 ZTestCorp1 <- c("The new law included a capital gains tax, and an inheritance tax.",
我有一個包含ID號碼列和文本列的數據集,並且我正在使用quanteda包對文本數據運行LIWC分析。這是我的數據設置的例子: mydata<-data.frame(
id=c(19,101,43,12),
text=c("No wonder, then, that ever gathering volume from the mere transit ",
"So t