我已經收集了來自一個音樂事件的10k條推文。你可以想象有很多轉推。爲了做適當的分析,我想統計每個轉推,然後刪除轉推或刪除重複。在NoSQL中我找不到方法,所以在這裏尋求幫助和建議。使用MongoDB和Robomongo GUI客戶端。NoSQL重複計數和刪除
而且通過重複我指的是相同的文本字段中的條目
類別包括在這種類型的結構:
{
"_id" : ObjectId("53cd28ea51f4fbe9f6e04798"),
"name" : "Positivus Festival",
"screenName" : "positivus",
"text" : "RT @Valsts_policija: Tuvojas @positivus , tādēļ esam sagatavojuši septiņus drošības ieteikumus patīkamai atpūtai #Positivus110 http://t.co/…",
"time" : 1405606042.803368
}
那麼重複的樣子是什麼?完全相同的文字? –
是的,文本字段是相同的。 Failes提到,對不起 – andris