假設我們有以下Web訪問日誌。通過訪問時間戳進行聚類
timestamp page_visted
======================================
2017-01-02 10:00:02 /xxx/a.html
2017-01-02 10:00:06 /xxx/b.html
2017-01-02 10:01:03 /xxx/c.html
2017-01-02 10:02:02 /xxx/d.html
2017-01-02 15:00:02 /xxx/a.html
2017-01-02 15:01:10 /xxx/b.html
2017-01-02 15:03:05 /xxx/c.html
該用戶訪問我們的網站2次,並訪問了7頁。我的問題是「知道他訪問我們的網站多少次而不是訪問了多少頁面的最佳方式是什麼?」
因爲用戶可能會訪問不同數量的頁面併爲每次訪問花費不同的時間,因此很難設置固定數量或間隔來對這些記錄進行分組。有沒有算法根據它們的時間戳對這些記錄進行分組(聚合)?謝謝。
你訪問日誌還包含用戶ID的我假設? – mtoto
如果您有任何登錄頁面或提供身份驗證的任何頁面,那麼您只能計算這些值。 – Knight71
@ Knight71這是一個好主意,只要沒有'記住我'選項 – ImDarrenG