我有一個問題,但我覺得解決方案應該很簡單。我正在構建一個模型,並希望通過10倍交叉驗證來測試其準確性。爲此,我必須將訓練語料庫90%/ 10%分成訓練和測試部分,然後訓練我的模型90%和測試10%。這個我想做10次,每次做不同的90%/ 10%的分割,這樣最終每個比特的語料庫都被用作測試數據。然後我會平均每個10%測試的結果。如何從數據文件中提取特定行
我試圖編寫一個腳本來提取10%的訓練語料庫並將其寫入一個新文件,但到目前爲止我沒有得到它的工作。我所做的是計算文件中的總行數,然後將這個數字除以10以知道我想提取的十個不同測試集中每一個的大小。
trainFile = open("danish.train")
numberOfLines = 0
for line in trainFile:
numberOfLines += 1
lengthTest = numberOfLines/10
對於我自己的培訓文件,我發現它包含3638行,因此每個測試應該大致由363行組成。
如何將第1-363行,第364-726行等寫入不同的測試文件?
那麼哪部分不適合你?我試過你的代碼(用我自己的文本文件),它告訴我每個「測試塊」的大小。您是否需要幫助編寫部分內容:「如何將第1-363行,第364-726行等寫入不同的測試文件?」就這樣?或者在你到達那裏之前還有其他的東西不適合你? –