這是我的數據幀的樣子: 的一首歌門戶網站的數據(如iTunes或raaga)查找基於發生的「罕見」的用戶在兩列
datf <- read.csv(text =
"albumid,date_transaction,listened_time_secs,userid,songid
6263,3/28/2017,59,3747,6263
3691,4/24/2017,53,2417,3691
2222,3/24/2017,34,2417,9856
1924,3/16/2017,19,8514,1924
6691,1/1/2017,50,2186,6691
5195,1/1/2017,64,2186,5195
2179,1/1/2017,37,2186,2179
6652,1/11/2017,33,1145,6652")
我的目標是挑選淘汰罕見的用戶。 「罕見」用戶是每個日曆月訪問門戶不超過一次的用戶。
例如:2186並不少見。 2417是罕見的,因爲它在2月差異只發生一次,所以是3747,1145和8514.
我一直是這樣的:
DuplicateUsers <- duplicated(songsdata[,2:4])
DuplicateUsers <- songsdata[DuplicateUsers,]
DistinctSongs <- songsdata %>%
distinct(sessionid, date_transaction, .keep_all = TRUE)
RareUsers <- anti_join(DistinctSongs, DuplicateUsers, by='sessionid')
但似乎並沒有工作。