Google AnalyticsAPI：活動小時數與會話小時數？

假設我有以下查詢：Google AnalyticsAPI：活動小時數與會話小時數？

d1 = service.data().ga().get(
     ids='ga:xxxxxxx', 
     start_date='2016-04-25', 
     end_date='2016-05-14', 
     metrics='ga:users', 
     dimensions='ga:dimension1,ga:hour,ga:date', 
     sort='-ga:date', 
     start_index='1', 
     max_results='1500').execute() 

d2 = service.data().ga().get(
     ids='ga:xxxxxxx', 
     start_date='2016-04-25', 
     end_date='2016-05-14', 
     metrics='ga:uniqueEvents', 
     dimensions='ga:dimension1,ga:eventCategory,ga:eventAction,ga:eventLabel,ga:date,ga:hour', 
     sort='-ga:date', 
     start_index='1', 
     max_results='1500').execute()

ga:dimension1被填充有唯一的每個用戶的用戶範圍的客戶端ID。

的目標是加入d1和d2上ga:date，ga:hour和ga:dimension1。

但是，假設用戶在小時10開始會話，並在小時12觸發事件。d1會給小時= 10，但是d2會給小時= 10或12？

來源

2016-05-14 Catherine Smith

該事件將得到事件發生的時間，即d2將在您的示例中給出hour = 12。

我的解決方法是在查詢中添加維度ga:sessionDurationBucket，該維度以秒爲單位給出會話持續時間（請參閱here）。我不確定您使用哪種語言訪問api，無論如何，我不會發布代碼，而只是解決問題的步驟。（我使用R，當然如果你認爲它有幫助，我可以發佈我的代碼）。

我構造的時間戳用於通過ga:dimension1從ga:date，ga:hour和ga:minute
I組中的記錄的每個記錄和ga:sessionDurationBucket
對於每個組，在一個循環：（1 ）我得到較舊的時間戳，並添加會話持續時間（ga:sessionDurationBucket/60 + 1）/（60 * 24）以獲得「最後」時間戳，（b）我將第一個時間戳記到最後一個時間戳記會話的時間戳，以及（c）如果（a）
循環結束後，「所有」寄存器被分配給一個會話，並且我執行處理（I）把所有引號之間因爲有可能是在我不能分配過程中的幾個寄存器，但通常可以忽略不計次數）

我希望這是足夠清晰的，它可以幫助。如果你認爲它是有用的，我可以張貼R代碼，或者也許如果你告訴我你使用的編程語言，我可以嘗試把它改寫......

評論後添加：R中的示例代碼

我使用RGoogleAnalytics庫，這是我運行查詢（注意在這種情況下，我不使用dimension1，因爲我的工作的網站沒有將其設置）：

query.coll.d <- Init(start.date=start_date.d, 
        end.date=end_date.d, 
        dimensions=c("ga:date", 
            "ga:hour", 
            "ga:minute", 
            "ga:sourceMedium", 
            "ga:pagePath", 
            "ga:previousPagePath", 
            "ga:sessionDurationBucket"), 
        metrics=c("ga:sessions", 
           "ga:pageviews", 
           "ga:newUsers"), 
        table.id="ga:XXX view id XXX", 
        sort="-ga:date,-ga:hour,-ga:minute", 
        max.results = 20000) 

ga.query.d <- QueryBuilder(query.coll.d) 
ga.data.coll.d <- GetReportData(ga.query.d, token, paginate_query=TRUE)

FRO米，我建時間戳（注意，GA不提供秒），

require(chron) 
ga.data.coll.d$datetime <- chron(ga.data.coll.d$date, paste(ga.data.coll.d$hour, 
                  ga.data.coll.d$minute, 
                  '00', 
                  sep=":"), 
           format=c("ymd","h:m:s"))

這是創建一個唯一的用戶ID，使用全局變量，這樣我可以在以後使用我的函數裏面的函數。

userId <- 1 
getNewId <- function() { 
    current <- get("userId", envir = .GlobalEnv) 
    current <- current + 1 
    assign("userId", current, envir = .GlobalEnv) 
    return(current) 
}

這是我嘗試了上述描述，其中sessionDurationBucket是一個整數，和datetimes和sessions是的會話和時間戳的列表中，我通過根據算法處理所述組的結果的功能通過...分組。

one_minute <- 1/(60*24) 
setUserId <- function(datetimes, sessions, sessionDurationBucket) { 
    if (length(datetimes) == 1) { 
    # just one row received 
    return(getNewId()) 
    } 
    if (sum(sessions) == 1) { 
    # just one session, all rows belong to the same user 
    return(getNewId()) 
    } 
    users <- rep(NA, length(datetimes)) 
    if (sessionDurationBucket == 0) { 
    # sessions of 1 page and length 0 => assign a user per session 
    for (i in 1:length(datetimes)) { 
     users[i] <- getNewId() 
    } 
    return(users) 
    } 
    # general case 
    minutes <- ceiling(as.numeric(sessionDurationBucket)/60) + 1 
    i <- 1 
    while(TRUE) { 
    index_lag <- (datetimes >= datetimes[i] - minutes*one_minute) & is.na(users) 
    sessions_lag <- sum(sessions[index_lag]) 
    if (sessions_lag == 1) { 
     users[index_lag] <- getNewId() 
    } else { 
     # two or more sessions mixed together 
     users[index_lag] <- 0 
    } 
    # look for remaining users (without id yet) 
    rem_users <- which(is.na(users)) 
    if (length(rem_users) == 0) { 
     break 
    } 
    i <- min(rem_users) 
    } 
    return(users) 
}

，而且我用data.table由運行組和創建新列（請注意，你的情況，你可以通過使用組中dimension1代替sourceMedium）。另請注意，它假定寄存器按日期逆序排列，這在GA查詢中完成。

require(data.table) 
ga.data.coll.dt <- data.table(ga.data.coll.d) 
ga.data.coll.dt[, userId:=setUserId(datetime, sessions, sessionDurationBucket), by=list(sessionDurationBucket, sourceMedium)]

最後我刪除具有userId等於0，因爲對於那些上面的代碼無法解析會話的所有寄存器。在我的情況下，數字可以忽略不計。

我實際上計劃在我不起眼的博客中寫一篇文章，包括更多的解釋，但是直到本月底才能做到......希望它有幫助。

來源

2016-05-15 14:39:51 lrnzcig

謝謝，Irnzcig，'ga：sessionDurationBucket'看起來像要走的路。我使用Python，但我最流利的R，所以任何R代碼將大大幫助，所以我可以真正包圍我的頭你的方法。 –

已更新。希望它是有用的！ – lrnzcig

Google AnalyticsAPI：活動小時數與會話小時數？

回答

相關問題