2016-11-26 156 views
0

我已經下載了10個類對象的數據集用於對象檢測。數據集不分爲培訓,驗證和測試。然而,作者在他的論文中提到,將數據集分成20%培訓,20%驗證和60%測試,並隨機選擇圖像。正確分割數據集

根據作者所述的標準,我隨機選擇了20%的培訓圖像,20%的圖像進行驗證,60%的圖像測試。

我想知道幾件事
1)我是否需要在訓練集或驗證集或測試集中放置困難的圖像?例如,目前在測試集中有41個難以處理的圖像,在訓練集中有30個,在驗證集中有20個。
2)如何確保所有十個對象類平均分配?
更新
3)理想情況下,對於平衡分割困難的圖像應平均分配?如果測試更困難,或者培訓更難或驗證更多,結果會有多大影響?

十類:飛機,儲罐,棒球場,網球場,籃球場,地面場地,橋樑,船舶,港口和車輛。

我總共有650個圖像,其中466個圖像只有一個類,並且圖像中存在多個對象 飛機= 88圖像,存儲箱= 10圖像,棒球場= 46圖像,網球場= 29圖像,籃球場= 32個圖像,地面場地= 55個圖像,橋58個圖像,船= 36個圖像,海港27個圖像和車輛= 85個圖像。

剩餘184張圖片有多個類別。

在總757架飛機,302條船舶,655個儲罐,390棒球場,524個網球場,159籃球場,163名地面軌跡的字段,224個港口,124座橋樑和477個車輛

回答

1

最常用的技術是一個隨機選擇。例如,如果您有1000張圖像,則可以創建一個包含每個文件名稱的數組,並且可以使用隨機排列對這些元素進行任意處理。然後你可以使用前200個元素進行訓練,接下來的200個元素用於驗證,其他元素用於測試(在20%,20%,60%的情況下)

如果存在非常不平衡的類,強制每組中的相同比例的班級。要做到這一點,你必須按照課堂上提到的程序進行。

你不應該手工選擇圖像。如果您知道數據集中存在一些困難的圖像,您無法手動選擇它們以將其包含在火車,驗證和測試集中。

如果您想對您的算法進行公平比較,如果少數圖像可以高度修改準確性。您可以重複幾次隨機分割。在某些情況下,訓練集中會有很多困難的圖像,而在其他情況下,將會出現驗證或測試集。然後,您可以確定您的準確性(或您使用的衡量標準)的平均值和標準偏差。

更新:

我明白了,在你的描述,你有一個像在多於1個對象。不是嗎?例如,你可以有兩艘船和一座橋嗎? 我用於處理每個圖像中包含單個對象的數據集。然後爲了檢測圖像中的多個對象,我掃描圖像的不同部分尋找單個對象。

可能您提及的論文的作者隨機分配了數據集。如果你在研究論文中使用更復雜的部門,你應該提及它。

關於你的問題,關於每個集合中有更多不同圖像的效果如何,答案是非常複雜的。它取決於算法,以及與驗證和測試集的圖像進行比較時,訓練集的圖像有多相似。通過一個複雜的模型(例如一個具有很多圖層和神經元的神經網絡),您可以在訓練集上獲得所需的準確性(例如100%)。然後,如果圖像與驗證和測試集中的圖像非常相似,則準確性會相似。但是,如果它們不是非常相似,那麼就會出現過度配置,並且驗證和測試集中的準確性會變慢。爲了解決這個問題,你需要一個更簡單的模型(例如減少神經元的數量或者使用一個好的正則化技術),在這種情況下,訓練集中的準確性會比較慢,但是驗證和測試集的準確性會更接近使用訓練集獲得的準確性。

+0

「你不應該手動選擇圖像。」那意味着什麼?我怎樣才能隨機挑選? –

+0

我編輯了答案以包含更多信息 – Rob

+0

我已經添加了有關數據集的更多詳細信息。 關於你的第一個答案。我已經隨機使用了圖像,而沒有看到它們之間的困難,而且很容易。我選擇了80個飛機圖像,然後選擇20%作爲驗證,20%作爲訓練,剩下60%的測試。通過這種方式,我爲所有課程和擁有多個課程的圖像分開了所有課程。 比我檢查它是否平衡(即難以容易的圖像均勻分佈)或不。然後我發現測試集中有41個難度圖像,30個訓練集和20個驗證集。 –