該事件將得到事件發生的時間,即d2
將在您的示例中給出hour = 12。
我的解決方法是在查詢中添加維度ga:sessionDurationBucket
,該維度以秒爲單位給出會話持續時間(請參閱here)。我不確定您使用哪種語言訪問api,無論如何,我不會發布代碼,而只是解決問題的步驟。 (我使用R
,當然如果你認爲它有幫助,我可以發佈我的代碼)。
我構造的時間戳用於通過ga:dimension1
從ga:date
,ga:hour
和ga:minute
I組中的記錄的每個記錄和ga:sessionDurationBucket
對於每個組,在一個循環:(1 )我得到較舊的時間戳,並添加會話持續時間(ga:sessionDurationBucket
/60 + 1)/(60 * 24)以獲得「最後」時間戳,(b)我將第一個時間戳記到最後一個時間戳記會話的時間戳,以及(c)如果(a)
循環結束後,「所有」寄存器被分配給一個會話,並且我執行處理(I)把所有引號之間因爲有可能是在我不能分配過程中的幾個寄存器,但通常可以忽略不計次數)
我希望這是足夠清晰的,它可以幫助。如果你認爲它是有用的,我可以張貼R
代碼,或者也許如果你告訴我你使用的編程語言,我可以嘗試把它改寫......
評論後添加:R中的示例代碼
我使用RGoogleAnalytics
庫,這是我運行查詢(注意在這種情況下,我不使用dimension1
,因爲我的工作的網站沒有將其設置):
query.coll.d <- Init(start.date=start_date.d,
end.date=end_date.d,
dimensions=c("ga:date",
"ga:hour",
"ga:minute",
"ga:sourceMedium",
"ga:pagePath",
"ga:previousPagePath",
"ga:sessionDurationBucket"),
metrics=c("ga:sessions",
"ga:pageviews",
"ga:newUsers"),
table.id="ga:XXX view id XXX",
sort="-ga:date,-ga:hour,-ga:minute",
max.results = 20000)
ga.query.d <- QueryBuilder(query.coll.d)
ga.data.coll.d <- GetReportData(ga.query.d, token, paginate_query=TRUE)
FRO米,我建時間戳(注意,GA不提供秒),
require(chron)
ga.data.coll.d$datetime <- chron(ga.data.coll.d$date, paste(ga.data.coll.d$hour,
ga.data.coll.d$minute,
'00',
sep=":"),
format=c("ymd","h:m:s"))
這是創建一個唯一的用戶ID,使用全局變量,這樣我可以在以後使用我的函數裏面的函數。
userId <- 1
getNewId <- function() {
current <- get("userId", envir = .GlobalEnv)
current <- current + 1
assign("userId", current, envir = .GlobalEnv)
return(current)
}
這是我嘗試了上述描述,其中sessionDurationBucket
是一個整數,和datetimes
和sessions
是的會話和時間戳的列表中,我通過根據算法處理所述組的結果的功能通過...分組。
one_minute <- 1/(60*24)
setUserId <- function(datetimes, sessions, sessionDurationBucket) {
if (length(datetimes) == 1) {
# just one row received
return(getNewId())
}
if (sum(sessions) == 1) {
# just one session, all rows belong to the same user
return(getNewId())
}
users <- rep(NA, length(datetimes))
if (sessionDurationBucket == 0) {
# sessions of 1 page and length 0 => assign a user per session
for (i in 1:length(datetimes)) {
users[i] <- getNewId()
}
return(users)
}
# general case
minutes <- ceiling(as.numeric(sessionDurationBucket)/60) + 1
i <- 1
while(TRUE) {
index_lag <- (datetimes >= datetimes[i] - minutes*one_minute) & is.na(users)
sessions_lag <- sum(sessions[index_lag])
if (sessions_lag == 1) {
users[index_lag] <- getNewId()
} else {
# two or more sessions mixed together
users[index_lag] <- 0
}
# look for remaining users (without id yet)
rem_users <- which(is.na(users))
if (length(rem_users) == 0) {
break
}
i <- min(rem_users)
}
return(users)
}
,而且我用data.table
由運行組和創建新列(請注意,你的情況,你可以通過使用組中dimension1
代替sourceMedium
)。另請注意,它假定寄存器按日期逆序排列,這在GA查詢中完成。
require(data.table)
ga.data.coll.dt <- data.table(ga.data.coll.d)
ga.data.coll.dt[, userId:=setUserId(datetime, sessions, sessionDurationBucket), by=list(sessionDurationBucket, sourceMedium)]
最後我刪除具有userId
等於0,因爲對於那些上面的代碼無法解析會話的所有寄存器。在我的情況下,數字可以忽略不計。
我實際上計劃在我不起眼的博客中寫一篇文章,包括更多的解釋,但是直到本月底才能做到......希望它有幫助。
謝謝,Irnzcig,'ga:sessionDurationBucket'看起來像要走的路。我使用Python,但我最流利的R,所以任何R代碼將大大幫助,所以我可以真正包圍我的頭你的方法。 –
已更新。希望它是有用的! – lrnzcig