文本挖掘中的功能數

我正在嘗試基於文本挖掘進行預測模型。我很困惑我應該在模型中設置多少功能。我的分析中有1000個文件（因此語料庫需要大約700個文件）。語料庫中的術語數量約爲20 000個，因此它超過文檔數量（P >> N）。有這麼多的功能有什麼意義？文本挖掘中的功能數

HashingTF方法中的特徵數量應該高於語料庫中的術語總數？或者我應該讓它更小（像512個功能？）

我有點困惑。

2017-07-19 Arthur G.

假設你正在談論只使用unigrams作爲功能，你是對的，我們想要p < n。（未指明消息來源在這裏，因爲你似乎知道這意味着什麼。）

最後，實現p < N，你既可以

如果你使用散列像你提到，你應該設置的功能數量小於512，甚至因爲 -

祝你好運！

2017-07-20 02:39:05 Aayush

我會嘗試不同數量的功能，如你所說。我還想過關於bigrams。它會改變這個問題嗎？我可以使用更多的功能（如p = 2048）嗎？ –

是否bigrams有所作爲取決於你正試圖解決的問題。通常，我們需要n >> p（維度的詛咒）。你可以在L1-reg上使用一個大的p。如果你的數據集很小，你可以嘗試一下。 – Aayush

回答