我已經下載了10個類對象的數據集用於對象檢測。數據集不分爲培訓,驗證和測試。然而,作者在他的論文中提到,將數據集分成20%培訓,20%驗證和60%測試,並隨機選擇圖像。正確分割數據集
根據作者所述的標準,我隨機選擇了20%的培訓圖像,20%的圖像進行驗證,60%的圖像測試。
我想知道幾件事
1)我是否需要在訓練集或驗證集或測試集中放置困難的圖像?例如,目前在測試集中有41個難以處理的圖像,在訓練集中有30個,在驗證集中有20個。
2)如何確保所有十個對象類平均分配?
更新
3)理想情況下,對於平衡分割困難的圖像應平均分配?如果測試更困難,或者培訓更難或驗證更多,結果會有多大影響?
十類:飛機,儲罐,棒球場,網球場,籃球場,地面場地,橋樑,船舶,港口和車輛。
我總共有650個圖像,其中466個圖像只有一個類,並且圖像中存在多個對象 飛機= 88圖像,存儲箱= 10圖像,棒球場= 46圖像,網球場= 29圖像,籃球場= 32個圖像,地面場地= 55個圖像,橋58個圖像,船= 36個圖像,海港27個圖像和車輛= 85個圖像。
剩餘184張圖片有多個類別。
在總757架飛機,302條船舶,655個儲罐,390棒球場,524個網球場,159籃球場,163名地面軌跡的字段,224個港口,124座橋樑和477個車輛
「你不應該手動選擇圖像。」那意味着什麼?我怎樣才能隨機挑選? –
我編輯了答案以包含更多信息 – Rob
我已經添加了有關數據集的更多詳細信息。 關於你的第一個答案。我已經隨機使用了圖像,而沒有看到它們之間的困難,而且很容易。我選擇了80個飛機圖像,然後選擇20%作爲驗證,20%作爲訓練,剩下60%的測試。通過這種方式,我爲所有課程和擁有多個課程的圖像分開了所有課程。 比我檢查它是否平衡(即難以容易的圖像均勻分佈)或不。然後我發現測試集中有41個難度圖像,30個訓練集和20個驗證集。 –