我試圖瞭解一些有關celebritites的主題。我建立了一個twitter API連接,並從他們驗證的句柄中獲取了幾個人物的推文。我在使用tweet名人創建的wordcloud中看到'fffd'
予處理的鳴叫通過下列 -
- 代替圖形字符由空白
AmitText=str_replace_all(tweets.df$text,"[^[:graph:]]", " ")
- 轉換所有字符爲小寫
- 刪除標點,超鏈接,標籤,關鍵字 「RT」 和blankspaces在推文的開頭和結尾
- 創建語料庫,刪除停用詞並創建了一個wordcloud
AmitText.corpus <- Corpus(VectorSource(AmitText))
AmitText.corpus <- tm_map(AmitText.corpus, removeWords, stopwords("en"))
wordcloud(AmitText.corpus,min.freq = 2, scale=c(7,0.5),colors=brewer.pal(8, "Dark2"),random.color= FALSE, random.order = FALSE, max.words = 150)
這將創建一個體面的wordcloud,但問題是,我得到的wordcloud的中間有一個大大的「FFFD」,表明這是由名人最啾啾字。事實上,這是我看到所有7位名人的模式。雖然我確信這不是事實,但我也檢查了他們的原始推文,發現他們的推文中沒有fffd這樣的詞。據我所知,這是一些不能正確讀取的圖形字符。我不確定是什麼原因和谷歌是沒有太大的幫助
「ashokmistry4545印度的驕傲 srbachchan許多祝賀先生ab28million」我仍然認爲這是作爲推文文本之一。你是否認爲像 這樣的字符會被讀爲fffd? – Krithi07
刪除這些垃圾值爲什麼不使用'tweet $ text < - gsub(「[^ [:alnum:] ///']」,「」,tweet $ text)''。順便說一句 - 是的,當你做tolower()時,這是fffd的原因 - 參考這個[link](https://en.wikipedia.org/wiki/Specials_(Unicode_block))以獲取更多細節 – Prem
太棒了!這工作。謝謝:) – Krithi07