1
假設對於K近鄰算法,我們有一個原始訓練數據集x1,x2,...,xn
,我們測試p1
。在分類p1
後,我們將p1
納入訓練數據集。將預測數據放入訓練數據集是否有效?
最新的訓練數據集現在是{x1,x2,....,xn,p1}
,我們測試p2
...等等。
我認爲上述情況非常直觀,我們使用「假」數據來訓練我們的程序。但我想不出任何證據/理由來說明爲什麼我們不能使用「假」數據。
假設對於K近鄰算法,我們有一個原始訓練數據集x1,x2,...,xn
,我們測試p1
。在分類p1
後,我們將p1
納入訓練數據集。將預測數據放入訓練數據集是否有效?
最新的訓練數據集現在是{x1,x2,....,xn,p1}
,我們測試p2
...等等。
我認爲上述情況非常直觀,我們使用「假」數據來訓練我們的程序。但我想不出任何證據/理由來說明爲什麼我們不能使用「假」數據。
通過使用自己的預測更新類之間的邊界,它只會使模型更偏向於原始訓練集。另外,在沒有提供任何地面實況知識的情況下向您的訓練集添加更多觀察值只會使特徵空間更加密集,並減少K的影響,從而導致過度擬合的可能性更高。
你可以使用你想要的。但是它是否有意義,是一個問題。當使用預測的p1作爲訓練時,你會強化模型學到的是真實的。而在數據集中添加越來越多的預測只會加強它。但可悲的是,這與真實的訓練數據相差甚遠。而你的模型將表現不佳 –