2013-10-05 67 views

回答

3

一般來說,將限制設置爲儘可能高是一個好主意,以儘可能多地保留儘可能多的單詞。頻率較低的詞可以稍微幫助稍後誘導的分類器。

爲了提高效率,保留太多的單詞可能看起來不太合適 - 屬性數量越多,學習模型所需的時間就越長。但是,您可以使用AttributeSelection過濾器和Ranker函數和InfoGainAttributeEval度量來過濾單詞以保留最具預測性的單詞。事實上,你可以使用AttrivuteSelection過濾器中的theshold來保持相對少量的非常有預測性的單詞,並且與它們的相對頻率無關。

此外,不要忘記設置標誌doNotOperatePerClassBasis爲真,以保持所有單詞與所有類相關。

+0

我可以使用AttributeSelection過濾器進行文本聚類嗎? – vikifor

+0

由於屬性選擇的目標是找到可以很好地預測類的屬性,因此應用於受監督的問題(例如文本分類),而不適用於無監督問題(例如,文本分類),因此將AttributeSelection用於文本聚類沒有意義。文本聚類)。 –