我是一個強大的Excel數據透視表用戶,他強迫自己學習R.我完全知道如何在Excel中做這種分析,但無法弄清楚正確的方式來編碼R.在R中的多個變量上分組
我試圖按2個不同的變量對用戶數據進行分組,然後將變量分組爲範圍(或分箱),然後總結其他變量。
這裏的數據是什麼樣子:
userid visits posts revenue
1 25 0 25
2 2 2 0
3 86 7 8
4 128 24 94
5 30 5 18
… … … …
280000 80 10 100
280001 42 4 25
280002 31 8 17
這裏就是我試圖讓輸出看起來像:10達
VisitRange PostRange # of Users Total Revenue Average Revenue
0 0 X Y Z
1-10 0 X Y Z
11-20 0 X Y Z
21-30 0 X Y Z
31-40 0 X Y Z
41-50 0 X Y Z
> 50 0 X Y Z
0 1-10 X Y Z
1-10 1-10 X Y Z
11-20 1-10 X Y Z
21-30 1-10 X Y Z
31-40 1-10 X Y Z
41-50 1-10 X Y Z
> 50 1-10 X Y Z
想組通過走訪和帖到一定的水平,然後將任何高於50的東西分組爲'51'
我已經看到了一種方法來實現這一點,但我不認爲它們會以我期望的方式工作,但我可以是錯了。
最後,我知道我可以在SQL中使用和if/then語句來確定訪問範圍和帖子範圍(例如,如果訪問次數在1到10之間,則爲'1-10'),然後只是按訪問範圍和帖子範圍進行分組,但我的目標是開始強迫自己使用R.也許R在這裏不是正確的工具,但我認爲它是...
所有幫助將不勝感激。提前致謝。
歡迎來到SO。你可能很快就會從你對Excel的沉迷中得到治癒。 (它對我有用!現在我只能在脅迫下使用Excel ...) – Andrie
謝謝。我從多年的使用中知道得非常出色,但我也已經讀過,R將會在分析方面吸取它。這是真的,對嗎? – mikebmassey