創建推文匹配表以預先確定的單詞列表

我對R相對較新 - 目前使用Studio v.0.99.879 - 我一直主要用它進行情感分析。但有一天，我有一個客戶問，如果可能的話，與情感分析一起，我可以輸出一個.csv表，前5個詞作爲列標題，tweet文本作爲行，如果其中一個標題詞（如果你熟悉使用get_nrc_sentiment，然後用tweet文本把情緒輸出結合起來，這將是有道理的。這可能是一個功能。創建推文匹配表以預先確定的單詞列表

如果這是可行的，我將不勝感激任何指導。

輸出例如...

       hot nice day test concert 
    love the hot dogs   1 0 0 0  0 
    hate summer school   0 0 0 0  0 
    have a nice day    0 1 1 0  0 
    enjoyed last nights concert 0 0 0 0  1 
    where is waldo    0 0 0 0  0

來源

2016-06-10 Atwp67

似乎可能。如果您可以提供最低限度的重複性示例，則您得到的答案可能會更好，更詳細。您還需要指出您正在使用哪些軟件包。 – Jota

請參閱[tidytext]（https://github.com/juliasilge/tidytext）短片。 – alistaire

@Jota感謝您的回覆。我已經更新了我的問題。 – Atwp67

你有什麼是文檔特徵矩陣。

我們假設您的推文存儲爲名爲tweets的字符向量。我建議使用包裝quanteda。

df_matrix <- dfm(tweets, tolower = TRUE, stem = FALSE, remove_numbers = TRUE, 
       remove_punct = TRUE, remove_symbols = TRUE)

這將形成一個矩陣，其中每一行是一條推文，每一列是一個字。

再到所以最常見的詞來第一矩陣排序：

df_matrix <- dfm_sort(df_matrix, decreasing = TRUE, 
         margin = "features")

你可以簡單地利用這一新的矩陣的前5列和你去那裏！

來源

2017-12-22 15:30:51 Jamie

創建推文匹配表以預先確定的單詞列表

回答

相關問題