2016-11-28 20 views
1

我正在對r中的twitter數據進行情感分析。但有更多重複的數據推文。 是否影響結果?在twitter數據的情緒分析中,多次轉發infulence的結果?

RT @Ananduvi:你會支持#BharathBandh今天反對#demonetization ???

RT @Ananduvi:你今天是否支持#BharathBandh反對#demonetization?

如果是!那麼該如何處理呢?我想從twitter數據集中刪除這些推文。

text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text) 

此代碼只刪除人的姓名,但推文保持原樣。

如果你幫我,我會很高興。

+0

肯定會影響結果。我們可以檢查與每條推文關聯的推文ID。刪除重複的ID。 –

回答

0

如果您有多次推文,它會歪曲分析結果!

使用Twitter API,您有以JSON格式返回的推文 - 您需要將Tweet中的「id」字段(或更好的「id_str」字段)作爲唯一標識符,並且只選擇給定「 ID「在您的分析。

{"id": 123456789, "id_str": "123456789"} 

如果您確定只有上面字段上鍵入的每個推文的一個實例,您將避免此問題。