我從未使用過Stata,對此知之甚少。根據year
,country1
,country2
,我一直試圖摺疊雙邊信息的數據集,並採取所有其他信息的手段。在R,我試圖運行:在Stata中使用整數和字符串進行數據子集與R
aggregate(dataset,by=list(dataset$year,dataset$country1,dataset$country2),FUN=mean,na.rm=TRUE)
數據集是太大,我計算機的RAM來處理我崩潰的R(另一個問題我解決不了),當一個同事試圖運行代碼,其他數據沒有被顯示爲手段(在某些情況下,只有一個特定二進制年的一行中的數據被選中;在其他情況下,我甚至不知道發生了什麼)。數據集的較小子集顯示正確的結果。
因爲在R上的問題,我想嘗試在Stata這樣做,但從前我以前使用
collapse (mean) <every variable I wanted a ``mean'' of, or otherwise wanted to remove from the dataset>, by(year country1 country2)
塔塔不知道如何處理字符串的嘗試。我對Stata瞭解甚少,我無法弄清楚如何解決這個問題。有人能給我提供代碼,我需要使用collapse
命令來處理大量變量,其中很多變量都是字符串(並且對於字符串,我希望返回NA
)?
您是否有可分享的數據樣本?那麼你可以粘貼dput的輸出(data [sample(1:nrow(data),50)]?我懷疑發生了什麼事是你的數據混合了字符和數字變量,並且你將它們聚合在一起你的調用 – infominer
那麼,輸出是99個變量,我會試試看 – ironchefsakai
這對於通過R訪問的SQLite來說似乎是一個很好的用例,可能是'dplyr'作爲前端,或者'data.table 「如果數據適合內存,甚至可能工作,但崩潰操作佔用太多空間。 –