2015-12-21 55 views
1

我使用RegexTokenizerStopWordsRemovertokenize我的數據集爲模型大廈。在同一時間,我想刪除少於3個字母的單詞。還有httphttps。我怎樣才能做到這一點?這裏是我的代碼: `Spark DataFrame轉換 - 刪除少於3個字母的單詞

val trainDF = sqlContext.read.jdbc(url, table, prop) 

// Tokenize 
val tokenizer = new RegexTokenizer() 
    .setGaps(false) 
    .setPattern("\\p{L}+") 
    .setInputCol("posttext") 
    .setOutputCol("words") 
val tokenizedDF = tokenizer.transform(trainDF) 

val filterer = new StopWordsRemover() 
    .setCaseSensitive(false) 
    .setInputCol("words") 
    .setOutputCol("tokens") 

val filteredDF = filterer.transform(tokenizedDF)` 

回答

0

找到setMinTokenLength(3)在RegexTokenizer

相關問題