我有一個100,000個行的大數據框,並且我想添加一個列,其中的值是基於數據中常見名稱的另一個數據框子集的樣本幀。可能是更容易的例子來解釋......從其他數據框的子集中獲取隨機樣本
largeDF <- data.frame(colA = c('a', 'b', 'b', 'a', 'a', 'b'),
colB = c('x', 'y', 'y', 'x', 'y', 'y'),
colC = 1:6)
sampleDF <- data.frame(colA = c('a','a','a','a','b','b','b','b','b','b'),
colB = c('x','x','y','y','x','y','y','y','y','y'),
sample = 1:10)
我再要一個新的列添加到sample
largeDF
,這是sampleDF
的sample
列的colA
和colB
適當的子集的隨機樣本。
例如,對於第一行的值是a
和x
,因此該值將是1
或2
隨機抽樣,對下一行(b
和y
)這將是6, 7, 8, 9 or 10
的隨機樣本。
所以,我們最終可能會以類似:
rowA rowB rowC sample
1 a x 1 2
2 b y 2 9
3 b y 3 7
4 a x 4 2
5 a y 5 4
6 b y 6 8
任何幫助,將不勝感激!
什麼是colA'和'colB'值和採樣域({1,2}和{'之間的確切關係6,7. 8. 9. 10}在你的例子中)? – Pop