2013-07-03 42 views
0

我正在對20個新聞組數據集進行一些文本分析,部分依賴於根據上述文章中的詞語對不同的文章進行分類。我目前能夠做的是解析一篇文章,然後編譯關於它的統計數據。我可以單獨爲每篇文章做到這一點,但將文章合併似乎是我的失敗。在R中合併數據幀 - 文本分析

什麼我期待能夠做到,在R爲以下幾點:

舉兩個(最好是任何數字)的解析和朵朵字頻率dataframes,並把它們合併起來以顯示兩篇文章中詞語的頻率作爲一個數據框。我希望能夠做到這一點,而無需將文章合併爲一個大型文檔。

拿這個數據幀,並通過頂部的頻率排序,只顯示前50

任何援助將不勝感激!

+0

我想你正在尋找'merge'。 –

回答

3

既然你沒有提供任何數據。例如,我只是猜測,你的數據是這樣的形式:

doc1 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10)) 
doc2 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10)) 

看一看? merge。它做你可能想要的:

merge(doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2")) 
+0

「後綴」部分是做什麼的?另外,有關排序的任何建議?任何時候我看這個,我都會按照說明操作,而「訂單」功能會發出錯誤。如果我按照頻率排序,最高優先,我知道我必須降低= T,但除此之外,我不知道如何使用「順序」 – riders994

+2

嘗試使用沒有後綴並比較的名稱。或者看看'merge'的文檔。關於行的順序,你可以'mdf < - merge(...); mdf [命令(mdf $ freq.doc1,mdf $ freq.doc2),]' – Beasterfield

+0

今晚我要測試一下,謝謝! – riders994