以同樣的方式採樣兩個熊貓數據幀

我正在做一個機器學習計算，它有兩個數據幀 - 一個用於因子，另一個用於目標值。我必須將它們分成訓練和測試部分。在我看來，我已經找到了方法，但我正在尋找更優雅的解決方案。這裏是我的代碼：以同樣的方式採樣兩個熊貓數據幀

import pandas as pd 
import numpy as np 
import random 

df_source = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('AB')) 
df_target = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('CD')) 

rows = np.asarray(random.sample(range(0, len(df_source)), 2)) 

df_source_train = df_source.iloc[rows] 
df_source_test = df_source[~df_source.index.isin(df_source_train.index)] 
df_target_train = df_target.iloc[rows] 
df_target_test = df_target[~df_target.index.isin(df_target_train.index)] 

print('rows') 
print(rows) 
print('source') 
print(df_source) 
print('source train') 
print(df_source_train) 
print('source_test') 
print(df_source_test)

----編輯 - 由unutbu溶液（midified）---

np.random.seed(2013) 
percentile = .6 
rows = np.random.binomial(1, percentile, size=len(df_source)).astype(bool) 

df_source_train = df_source[rows] 
df_source_test = df_source[~rows] 
df_target_train = df_target[rows] 
df_target_test = df_target[~rows]

來源

2013-06-23 Viacheslav Nefedov

如果您rows長度的布爾數組，那麼你就可以得到True行與df[rows]並獲得False行與df[~rows]：

import pandas as pd 
import numpy as np 
import random 
np.random.seed(2013) 

df_source = pd.DataFrame(
    np.random.randn(5, 2), index=range(0, 10, 2), columns=list('AB')) 

rows = np.random.randint(2, size=len(df_source)).astype('bool') 

df_source_train = df_source[rows] 
df_source_test = df_source[~rows] 

print(rows) 
# [ True True False True False] 

# if for some reason you need the index values of where `rows` is True 
print(np.where(rows)) 
# (array([0, 1, 3]),) 

print(df_source) 
#   A   B 
# 0 0.279545 0.107474 
# 2 0.651458 -1.516999 
# 4 -1.320541 0.679631 
# 6 0.833612 0.492572 
# 8 1.555721 1.741279 

print(df_source_train) 
#   A   B 
# 0 0.279545 0.107474 
# 2 0.651458 -1.516999 
# 6 0.833612 0.492572 

print(df_source_test) 
#   A   B 
# 4 -1.320541 0.679631 
# 8 1.555721 1.741279

來源

2013-06-23 11:51:35 unutbu

感謝名單！因爲我必須使用一些百分位數，所以我修改了以行開始的行= ... –

在這種情況下，您可以使用'rows = np.random.binomial（1，percentile * 100，size = len（df_source）） '。 – unutbu

是的，它的工作，thanx –

以同樣的方式採樣兩個熊貓數據幀

回答

相關問題