Weka中的字符保留屬性在StringToWordVector過濾器中

保留Weka StringToWord過濾器中的屬性的字的含義是什麼。爲了獲得真實的結果，是否有更高的價值或更高的價值？Weka中的字符保留屬性在StringToWordVector過濾器中

2013-10-05 vikifor

一般來說，將限制設置爲儘可能高是一個好主意，以儘可能多地保留儘可能多的單詞。頻率較低的詞可以稍微幫助稍後誘導的分類器。

爲了提高效率，保留太多的單詞可能看起來不太合適 - 屬性數量越多，學習模型所需的時間就越長。但是，您可以使用AttributeSelection過濾器和Ranker函數和InfoGainAttributeEval度量來過濾單詞以保留最具預測性的單詞。事實上，你可以使用AttrivuteSelection過濾器中的theshold來保持相對少量的非常有預測性的單詞，並且與它們的相對頻率無關。

此外，不要忘記設置標誌doNotOperatePerClassBasis爲真，以保持所有單詞與所有類相關。

來源

2013-10-05 15:20:51

我可以使用AttributeSelection過濾器進行文本聚類嗎？ – vikifor

由於屬性選擇的目標是找到可以很好地預測類的屬性，因此應用於受監督的問題（例如文本分類），而不適用於無監督問題（例如，文本分類），因此將AttributeSelection用於文本聚類沒有意義。文本聚類）。 –

Weka中的字符保留屬性在StringToWordVector過濾器中

回答

相關問題