1
我正在對r中的twitter數據進行情感分析。但有更多重複的數據推文。 是否影響結果?在twitter數據的情緒分析中,多次轉發infulence的結果?
RT @Ananduvi:你會支持#BharathBandh今天反對#demonetization ???
RT @Ananduvi:你今天是否支持#BharathBandh反對#demonetization?
如果是!那麼該如何處理呢?我想從twitter數據集中刪除這些推文。
text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text)
此代碼只刪除人的姓名,但推文保持原樣。
如果你幫我,我會很高興。
肯定會影響結果。我們可以檢查與每條推文關聯的推文ID。刪除重複的ID。 –