2016-08-05 61 views
-1

Example of data
我已經創建了一個新示例,以使其更清楚我的意思。所以,最近有一個奧巴馬發佈的推文文件。第一列「號碼」是推文的號碼,第二列「推特」包含實際的推文,第四列「已用」包含用於推文中的單詞,三個單詞和hashtag,但是爲什麼我們選擇它們。所以,我想選擇只包含「nottouse」列中任何信息的行,並創建一個只包含這些行的新數據框。選擇行字符串包含另一列中的任意值之一

我已經試過這樣:

used<- as.character(used[1])

newdata<-subset(tweets, grepl(used,tweet))

但我想它是不是right.`

謝謝

+0

請告訴別人一個小的可重複的例子和預期輸出,以便更好地理解您的問題,並做一些編碼 – akrun

+0

對不起,我沒有發現任何方式插入實際表 –

回答

1

猜測基礎上,你有結構:

badwords <- # assign the vector of badwords 
df <- # assign your dataframe of tweets 

# this converts the badwords into a pattern that grepl would understand 
badwords.pattern <- paste(badwords, collapse = "|") 

# do subsetting by grepl 
df.onlybad <- df[grepl(badwords, df$tweet),] 
+0

謝謝你的回覆。這似乎是工作,但你知道我如何才能摺疊列中的值,因爲我通常會得到像這樣的: '單詞|單詞|單詞|不適用|不適用| NA | NA'或只是'字|字|字||||||'。所以我只是想知道是否有辦法摺疊列中的值,儘管它的行數少得多。 –

+0

如何通過做'badwords < - na.omit(壞詞)來刪除'badwords'中的NA和空詞。 badwords < - badwords [!grepl(「」,badwords)]'? – carlo

相關問題