2016-02-24 49 views
-2

同時使用twitteR軟件包進行電子商務網站的情感分析時,我注意到我獲得的大多數推文都是關於優惠和銷售。他們總是有一個超鏈接,如果我可以忽略輸入Feed中的這些推文,我可以從消費者那裏得到更多的推文,這些推文是我想衡量的。雖然我可以在完善數據的同時將這些推文留下,但這會導致只能處理很小的數據集。在搜索過程中有什麼方法可以做到這一點?我的目標是獲得足夠大的包含客戶推文的數據集。使用twitteR去除包含超鏈接的推文

回答

1

雖然我聽不懂你的問題很明顯,如果你只是想使用Twitter包從數據刪除的網址,這可能有助於

removeURL <- function (x) gsub("http[[:alnum:]]*", "", x) 
myCorpus <- tm_map(myCorpus, removeURL) 
+0

我想過濾輸入推文,以便包含URL的推文排除在外。即,如果我查詢了1000條推文,我想從twitter api取回1000條推文,這些推文不包含任何網址。 – Srikterdon

+0

從我在Twitter REST API文檔以及twitteR等軟件包手冊中讀到的內容,沒有辦法做到這一點。您只能在請求它們之後過濾無URL的推文。 –

+0

對不起@srikterdon遲到回覆,你可能已經得到了答案,我發現你不想做什麼。爲什麼不做另一件事,如果單詞包含像www或https://那樣從數據集中刪除整行。這是怎麼回事 –

0

不,你不能正確要求的tweet的API,唐不包含鏈接「。查找這些推文的共同點,例如'Etrans:我剛剛購買了X http:// ...',並通過'querysubject -Etrans'在以後的查詢中將其過濾掉。

+0

已過濾至少10個這樣的查詢對象,但它不會改進供稿。我已經設法在1000箇中只獲得約75個消費者推文,因此需要在API本身進行過濾。 – Srikterdon

相關問題