2017-04-09 88 views
-1

如果輸入樣本的張量流碼數爲5000000.這是否意味着它訓練所有這些樣本進行訓練?我如何知道分別用於訓練和測試目的的樣本數量?張量流程代碼中的訓練和測試樣本數量?

+0

你在哪裏看到這個號碼?你是提供訓練和測試數據的人,所以你應該知道每個樣本有多少個樣本。 – interjay

回答

0

您將不得不選擇哪些樣本用於培訓和哪些用於測試。一般的做法是設置隨機70%的樣本進行訓練,剩下的30%進行測試。這可以簡單地做到這一點:

讓我們假設您有一個名爲df的5000000個樣本的數據框。來自熊貓的sample()函數將允許您選擇一個指定的百分比的隨機樣本,可以留待培訓。其餘的30%將被編入索引並用於測試。

import pandas as pd 

train_set = df.sample(frac=0.7) 
test_set = df.loc[~data_.index.isin(train_set.index)] 

現在你有兩個dataframes,一個用於培訓(350萬個樣本),一個用於測試(150萬個樣本)