1
保留Weka StringToWord過濾器中的屬性的字的含義是什麼。爲了獲得真實的結果,是否有更高的價值或更高的價值?Weka中的字符保留屬性在StringToWordVector過濾器中
保留Weka StringToWord過濾器中的屬性的字的含義是什麼。爲了獲得真實的結果,是否有更高的價值或更高的價值?Weka中的字符保留屬性在StringToWordVector過濾器中
一般來說,將限制設置爲儘可能高是一個好主意,以儘可能多地保留儘可能多的單詞。頻率較低的詞可以稍微幫助稍後誘導的分類器。
爲了提高效率,保留太多的單詞可能看起來不太合適 - 屬性數量越多,學習模型所需的時間就越長。但是,您可以使用AttributeSelection
過濾器和Ranker
函數和InfoGainAttributeEval
度量來過濾單詞以保留最具預測性的單詞。事實上,你可以使用AttrivuteSelection過濾器中的theshold來保持相對少量的非常有預測性的單詞,並且與它們的相對頻率無關。
此外,不要忘記設置標誌doNotOperatePerClassBasis
爲真,以保持所有單詞與所有類相關。
我可以使用AttributeSelection過濾器進行文本聚類嗎? – vikifor
由於屬性選擇的目標是找到可以很好地預測類的屬性,因此應用於受監督的問題(例如文本分類),而不適用於無監督問題(例如,文本分類),因此將AttributeSelection用於文本聚類沒有意義。文本聚類)。 –