我正在使用R-tm-Rweka包進行一些文本挖掘。我不需要在單個單詞上構建一個tf-tdm,但這不足以達到我的目的,我必須提取ngram。我用@Ben函數TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 3)) tdm <- TermDocumentMatrix(a, control = list(tokenize = TrigramTokenizer))
來提取卦。輸出有一個明顯的錯誤,見下文。它會提取4個,3個和2個單詞的短語。理想情況下,它應該只拾取4個字的名詞短語,並放棄(3個和2個字)的休息。我如何強制這個解決方案,就像Python NLTK有一個備份標記器選項一樣?如何在RWeka中實現備份標記器開關?
抽象的戰略->this is incorrect
>
抽象的戰略棋盤->incorrect
抽象的戰略棋盤遊戲-> this should be the correct output
埃森哲高管
埃森哲執行簡單
埃森哲執行簡單的評論
非常感謝。
所以,總結一下,你想做2克和3克,對吧? –
說:首先嚐試4克,然後嘗試3個字窗口,然後嘗試2個字窗口,失敗一個單詞。但只報告最大的相關項目(不要重複4-,3-,2字短語) – Pradeep