2016-11-14 71 views
0

我有一個R tm語料庫,分爲3部分(源文檔),638MB。當我試圖獲得一個100字的文字雲時,花了12個小時(仍在運行)。有沒有辦法讓這個更快?R Wordcloud超過12小時,我可以加快速度

這是我的命令,應該得到100個單詞。

wordcloud(cleanFullCorpus, max.words = 100, random.order = FALSE, colors=brewer.pal(10,'Spectral')) 

我曾希望避免子集源文件,但如果需要可以。

是否可以提取前100個單詞然後構建詞雲?

任何其他的想法,使這更快的讚賞。

加里 PS如果它幫助我的機器有32演出的RAM,採用10和8核AMD芯片在18%左右運行

+1

如果您創建大型可重現樣本數據集,您會得到更好的答案。 –

回答

0

它看起來像你逝去的胼到wordcloud,此時應該傳遞一個獨特的術語和他們的頻率向量。

tdm<-TermDocumentMatrix(cleanFullCorpus) 
termFreqs<-row_sums(tdm) 

wordcloud(names(termFreqs), termFreqs, max.words = 100, random.order = FALSE, colors=brewer.pal(10,'Spectral')) 
+0

謝謝你的迴應。我在一臺不太強大的電腦上試了一下,判決結果依然存在。 (它仍然在運行......) – user3005033

+0

製作TDM不應該在計算上花費太多。如果你可以提供讓你進入'worcloud'命令的代碼,我們可以提供更多的幫助。 – emilliman5

相關問題