0

說在文檔分類領域,如果我有一個1000個實例的數據集,但實例(文檔)是相當小的內容;我有200個實例的另一個數據集,但每個單獨的實例都有更豐富的內容。如果IDF不在我的考慮範圍內,那麼實例的數量在訓練中是否真的很重要?分類算法是否考慮到了這一點?實例數量或實例內容更重要(機器學習)?

謝謝。 sam

+0

我不明白這個問題。考慮到什麼?你到底在問什麼?你在想什麼算法? (每個行爲都有所不同)以及文本中的功能是什麼? – amit

+0

對不起,如果你不清楚。我的意思是,像SVM,kNN,NaiveBayes這樣的分類算法是否將訓練數據集中的實例數考慮在內?在文本分類問題中,特徵將是單詞或N-gram。 – KillBill

+0

好的,我可以理解 - 但我不明白你指的是關於問題中每個文檔的大小。還有更多的方法是將詞或N-gram作爲特徵。 – amit

回答

1

您可能會將此視爲一般機器學習問題。最簡單的問題可以幫助您瞭解培訓數據的大小對曲線擬合的重要性。

分類器或擬合模型的不確定性和偏差是樣本大小的函數。小樣本量是一個衆所周知的問題,我們通常通過收集更多的訓練樣本來避免這個問題。這是因爲非線性分類器的不確定性估計是通過模型的線性近似來估計的。只有在大量樣本可用作爲的主要條件時,此估計纔是準確的。

異常值的比例也是決定訓練樣本大小時應該考慮的一個重要因素。如果較大的樣本量意味着更大比例的異常值,則應限制樣本量。

文檔大小實際上是特徵空間大小的間接指標。例如,如果從每個文檔中只獲得10個特徵,則您試圖在10維空間中對文檔進行分類/分類。如果您在每個文檔中都有100個功能,那麼100維空間中也會發生相同的功能。我想你可以很容易地看到繪製線條,將文檔分隔成更高維度更容易。

對於文檔大小和樣本大小,經驗法則儘可能高,但實際上這是不可能的。例如,如果您估計分類器的不確定性函數,那麼您會發現一個高於閾值的閾值導致實際上不會減少不確定性和偏差。根據經驗,你也可以通過Monte Carlo模擬發現一些問題的閾值。

大多數工程師不會費心去估計不確定性,並且往往會導致他們實施方法的次優行爲。對玩具問題來說這很好,但是在現實世界中,考慮到估計和計算的不確定性對於大多數系統而言至關重要。我希望能在一定程度上回答你的問題。