我正在使用Weka IBk進行文本分類。每個文件基本上是一個簡短的句子。訓練數據集包含15,000個文檔。在測試時,我可以看到k = 1給出了最好的精度?這怎麼解釋?爲什麼KNN中k = 1的精度最高?
0
A
回答
1
如果您使用與k = 1相同的數據集來查詢您的學習者,那麼輸出值應該是完美的,除非您有具有不同結果值的相同參數的數據。對KNN學習者適用過度擬合。
如果您使用與您一起訓練的相同數據集進行查詢,則查詢將針對每個學習者提供一些給定的參數值。由於該點存在於學習者的訓練數據集中,因此學習者將匹配該訓練點與參數值最接近,因此輸出該訓練點存在的任何Y值,在這種情況下,該值與您的點相同質疑。
0
的可能性是:
- 數據訓練數據的測試是相同的數據
- 數據測試與訓練數據相似度較高
- 類之間的界限是很清楚的
K的最佳值取決於數據。一般來說,k的值可以減少噪聲對分類的影響,但是使得每個分類之間的邊界變得更加模糊。
相關問題
- 1. 爲什麼KNN中的KNN實現運行速度更快?
- 2. 在Matlab中爲KNN選擇k
- 3. knn(k最近鄰)在matlab中的密度估計源
- 4. 精度高達1克
- 5. 爲什麼sklearn的感知器以1的精度,精度等來預測?
- 6. 爲什麼java.awt.Dimension對高度和寬度使用雙精度?
- 7. TensorFlow:是否有計算和更新最高k精度的度量標準?
- 8. 爲什麼Firefox上的最小高度比高度大?
- 9. 爲什麼在Java中允許雙精度的任意精度?
- 10. 爲什麼有最小高度但沒有實際高度?
- 11. 爲什麼紅黑樹的高度最多爲2 * O(ln N + 1)?
- 12. 爲什麼這個操作不會給我更高的精度?
- 13. Java:Math.random()最大值(雙精度小於1)
- 14. MATLAB K-means精度測量
- 15. 爲什麼1/2 == 0使用雙精度?
- 16. 爲什麼最初在NAM(2)的長度爲1的矢量?
- 17. 什麼是精度?
- 18. 爲了提高Tesseract精度
- 19. 什麼是在KNN錯誤的根本解決辦法:</p> <pre><code>Error in knn(learn[, -1], test[, -1], learn[, 1], k = 1) : too many ties in knn. </code></pre> <p>但是我減少:在KNN
- 20. 輸出精度高於雙精度
- 21. 引導和1像素的高度 - 爲什麼?
- 22. 爲什麼IEEE754單精度浮點只有7位精度?
- 23. 範圍縮減精度不高的單精度浮點數
- 24. 多維立方體上的Postgresql k最近鄰居(KNN)
- 25. Numpy高精度
- 26. 如何在範圍0 -1中獲得雙精度的最佳精度?
- 27. 在最高性能下將雙精度向量截斷爲單精度
- 28. 什麼是最好的lucene設置排名精確匹配作爲最高
- 29. 爲什麼內部div不會擴展到設定的高度/最小高度?
- 30. 爲什麼SetMinimumSize設置最小高度但不是寬度?
感謝您的回答。我用測試數據查詢學習者,而不是用訓練數據集。 – Chechi