2016-06-10 22 views
0

我對R相對較新 - 目前使用Studio v.0.99.879 - 我一直主要用它進行情感分析。但有一天,我有一個客戶問,如果可能的話,與情感分析一起,我可以輸出一個.csv表,前5個詞作爲列標題,tweet文本作爲行,如果其中一個標題詞(如果你熟悉使用get_nrc_sentiment,然後用tweet文本把情緒輸出結合起來,這將是有道理的。這可能是一個功能。創建推文匹配表以預先確定的單詞列表

如果這是可行的,我將不勝感激任何指導。

輸出例如...

       hot nice day test concert 
    love the hot dogs   1 0 0 0  0 
    hate summer school   0 0 0 0  0 
    have a nice day    0 1 1 0  0 
    enjoyed last nights concert 0 0 0 0  1 
    where is waldo    0 0 0 0  0 
+3

似乎可能。如果您可以提供最低限度的重複性示例,則您得到的答案可能會更好,更詳細。您還需要指出您正在使用哪些軟件包。 – Jota

+0

請參閱[tidytext](https://github.com/juliasilge/tidytext)短片。 – alistaire

+0

@Jota感謝您的回覆。我已經更新了我的問題。 – Atwp67

回答

0

你有什麼是文檔特徵矩陣。

我們假設您的推文存儲爲名爲tweets的字符向量。我建議使用包裝quanteda

df_matrix <- dfm(tweets, tolower = TRUE, stem = FALSE, remove_numbers = TRUE, 
       remove_punct = TRUE, remove_symbols = TRUE) 

這將形成一個矩陣,其中每一行是一條推文,每一列是一個字。

再到所以最常見的詞來第一矩陣排序:

df_matrix <- dfm_sort(df_matrix, decreasing = TRUE, 
         margin = "features") 

你可以簡單地利用這一新的矩陣的前5列和你去那裏!