我們在R中有2個數據集good
和bad
它包含users
和games
。遊戲包含10種不同的遊戲類型1,2,...,10
。數據集good
包含玩過很長時間的用戶,並且bad
包含已經玩了很短時間然後停止玩的用戶。要比較兩組的退出率
head(good)
user game
1 4
2 3
3 4
1 1
15 4
1 2
和
head(bad)
user game
10 4
22 3
37 4
37 1
38 4
46 2
我已經找到了最新的遊戲的用戶,他之前扮演/她停止播放。 因此,對於一個固定的遊戲組,我們有它被「最後遊戲」/它玩過的總時間。 這給我們一個退出率。如果退出率很高,則意味着它很可能是最新的遊戲,如果退出率較低,則意味着遊戲不是最後一場遊戲。
就R我們可以看到出口速率爲組good
exitrate_good
game exitrate
1 0.133333
2 0.127772
3 0.090332
...
9 0.317307
10 0.190854
而對於其他組bad
exitrate_bad
game exitrate
1 0.186522
2 0.045888
3 0.192556
...
9 0.365899
10 0.119331
這裏類似,我們可以例如看到遊戲9具有一個高在good
和bad
的退出率。
我的問題是:如何找到不流行的遊戲並導致玩家停止遊戲?
上次爲用戶播放的遊戲可能會導致用戶停止播放。我應該如何比較兩組的退出率?
-------(擴展)
讓我們看一下組good
。 在R I型last_game_good
,我們得到如下的輸出
latest_game_played not_latest_game_played
734 3917
645 3507
...
765 2100
112 535
所以第一行簡單地說734+3917
已經玩過這個遊戲,它是734
箱子玩最新的遊戲。
在這裏,我們還可以看到遊戲ID爲9(第二個最後一行)與not_latest_game_played
相比有很高的latest_game_played
。爲此,我使用pairwise.prop.test
,我得到所有的成對相關性,其中一些具有較低的p值,一些具有高於0.05的p值。我如何使用這些信息,如果我爲其他組運行相同的事情,如何比較它,如bad
組?
你的第一個問題是(更多)一般,它並不真正需要2個不同的數據集(好/壞) ,但一個數據集(用戶)。第二個更適合你的情況,因爲你想單獨調查好/壞用戶。所以,正如你所說的,第9場比賽的退場率很高(你可以把它描述爲不受歡迎(?)),但對於不好的用戶來說更糟糕。你可能需要對好/壞用戶中的遊戲進行配對比較。另外,使用「因果關係」術語解釋結果時要小心。通常這是一件很重要的事情,因爲一種模式與相關性有關,但並不總是與因果關係相關。 – AntoniosK
此外,對於百分比的比較,您需要成功次數,失敗次數(或總數),否則您將嘗試統計比較兩個數字(實際百分比),這是不可能的。檢查這個:https://stat.ethz.ch/R-manual/R-patched/library/stats/html/pairwise.prop.test.html – AntoniosK
我已經更新了這個問題。我製作了一張包含成功和總數的表格,但我仍然不確定如何使用它來比較羣組。 –