我正在研究一個推薦系統,並試圖開發一個簡單的模型,但我很難使此過程更快。現在,我正在嘗試製作兩個數據框,其大小爲(130000,40000),與用戶(行)排序的產品(列)相對應,其中數據框中的每個條目都是用戶產品數量的整數買了。對於x_df,計數超過了許多次序,而對於y_df,計數超過了它們的最後次序。優化熊貓代碼的速度
從我可以通過運行scipy.stats.linregress(計數,次數)得知,在獲得100個左右的數據點後,運行時間與r^2值爲0.993呈線性關係。如果有130,000個用戶,這意味着這段代碼需要大約36個小時,並且在製作後我仍然需要在數據框上訓練一個估計器!我之前沒有使用過這麼大的數據集,我不確定這是否應該是預期的,但我想我無論做什麼都可以因缺乏經驗而更有效率地完成。任何意見或建議,將不勝感激。
我應該澄清:數據集已設置好,以便order_products_prior包含訓練用戶的先前訂單集合,而order_products_train包含這些用戶的最終訂單。
def add_to_df(series, prod_list):
count = 0
for prod in prod_list:
if prod in series.index:
series[series.index==prod] += 1
count += 1
else:
series = series.set_value(prod, 1)
count -=1
return series
import time
start_time = time.time()
count = 0
times = []
counts = []
for user in users_train:
usr_series_x = pd.Series()
usr_series_y = pd.Series()
prod_list_x = []
prod_list_y = []
usr_orders = orders[orders['user_id']==user]
for ord_id in usr_orders['order_id']:
usr_order_products_prior = order_products_prior[order_products_prior['order_id']==ord_id]['product_id']
for product in usr_order_products_prior:
prod_list_x.append(product)
usr_order_products_train = order_products_train[order_products_train['order_id']==ord_id]['product_id']
for product in usr_order_products_train:
prod_list_y.append(product)
add_to_df(usr_series_x, prod_list_x)
add_to_df(usr_series_y, prod_list_y)
x_df.loc[user] = usr_series_x
y_df.loc[user] = usr_series_y
count += 1
if count%5==0:
print("Pectent Complete: {0}".format(float(count/len(users_list)*100))
print("--- %s seconds ---" % (time.time() - start_time))
counts.append(count)
times.append(time.time() - start_time)
import scipy as sci
plt.plot(counts, times)
sci.stats.linregress(counts, times)
您需要並行化。 http://dask.pydata.org/en/latest/ –
即使有這樣大小的數據集?我認爲這是比這更大的數據集。所有數據都包含在幾個csv文件中,佔用的內容少於GB。我想我需要知道的是,如果可能的話,如果沒有並行化,那麼生成上述維度的特徵和標籤矩陣將會是一種有效的方法。 – Ulminator