在R中合併數據幀 - 文本分析

我正在對20個新聞組數據集進行一些文本分析，部分依賴於根據上述文章中的詞語對不同的文章進行分類。我目前能夠做的是解析一篇文章，然後編譯關於它的統計數據。我可以單獨爲每篇文章做到這一點，但將文章合併似乎是我的失敗。在R中合併數據幀 - 文本分析

什麼我期待能夠做到，在R爲以下幾點：

舉兩個（最好是任何數字）的解析和朵朵字頻率dataframes，並把它們合併起來以顯示兩篇文章中詞語的頻率作爲一個數據框。我希望能夠做到這一點，而無需將文章合併爲一個大型文檔。

拿這個數據幀，並通過頂部的頻率排序，只顯示前50

任何援助將不勝感激！

來源

2013-07-03 riders994

我想你正在尋找'merge'。 –

既然你沒有提供任何數據。例如，我只是猜測，你的數據是這樣的形式：

doc1 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10)) 
doc2 <- data.frame(word = LETTERS[sample(26, 10)], freq = sample(100, 10))

看一看? merge。它做你可能想要的：

merge(doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2"))

來源

2013-07-03 10:17:44 Beasterfield

「後綴」部分是做什麼的？另外，有關排序的任何建議？任何時候我看這個，我都會按照說明操作，而「訂單」功能會發出錯誤。如果我按照頻率排序，最高優先，我知道我必須降低= T，但除此之外，我不知道如何使用「順序」 – riders994

嘗試使用沒有後綴並比較的名稱。或者看看'merge'的文檔。關於行的順序，你可以'mdf < - merge（...）; mdf [命令（mdf $ freq.doc1，mdf $ freq.doc2），]' – Beasterfield

今晚我要測試一下，謝謝！ – riders994

在R中合併數據幀 - 文本分析

回答

相關問題