2
我正在做阿拉伯語言的情感分析,我想創建自己的語料庫,要做到這一點,我從Facebook收集了300個狀態,並將它們分類爲正面和負面,現在我想做這些狀態的標記化,以獲得單詞列表,並且生成unigrams和bigrams,trigrams並使用跨摺疊驗證,我現在使用的是nltk python,這個軟件能夠完成這個任務fr阿拉伯語言或雷帕Minner會更好地工作,你怎麼看,我想知道如何生成bigrams,trigrams和使用交叉驗證,有什麼想法嗎?創建阿拉伯語語料庫
如果您使用正確的標記器,NLTK可以處理阿拉伯語。請參閱:http://stackoverflow.com/questions/13035595/tokenization-of-arabic-words-using-nltk。 – verbsintransit 2013-03-07 21:47:50
我與MALLET有更好的運氣。我同意上面的評論。正確的分詞器可以處理阿拉伯語。一旦你將文本標記化,那麼管道的其餘部分就不會改變。 – Shane 2013-03-15 22:57:08