2016-08-30 40 views

回答

0

我這麼認爲(但可能需要一些額外的預處理)。 Libsvm和Liblinear都是語言不可知的。由於LibShortText構建在LibLinear之上,因此它也適用於所有語言。

根據this的論文,它有內部預處理方法來提取特徵。

libshorttext.converter: For given short texts, LibShortText follows 
the bag-of-word model to generate features. Users apply procedures in 
this library to pre-process short texts by tokenization, stemming 
(optional), and stop-word removal (optional). The library also allows 
users to choose between unigram and bigram features. 

但是,它看起來像它的詞幹和停止詞移除只支持英語。因此,如果您想爲非英文文本提取更好的功能,則可能需要使用自己的預處理方法,例如,使用nltk