Spark DataFrame轉換 - 刪除少於3個字母的單詞

我使用RegexTokenizer和StopWordsRemover到tokenize我的數據集爲模型大廈。在同一時間，我想刪除少於3個字母的單詞。還有http和https。我怎樣才能做到這一點？這裏是我的代碼： `Spark DataFrame轉換 - 刪除少於3個字母的單詞

val trainDF = sqlContext.read.jdbc(url, table, prop) 

// Tokenize 
val tokenizer = new RegexTokenizer() 
    .setGaps(false) 
    .setPattern("\\p{L}+") 
    .setInputCol("posttext") 
    .setOutputCol("words") 
val tokenizedDF = tokenizer.transform(trainDF) 

val filterer = new StopWordsRemover() 
    .setCaseSensitive(false) 
    .setInputCol("words") 
    .setOutputCol("tokens") 

val filteredDF = filterer.transform(tokenizedDF)`

來源

2015-12-21 Igor K.

找到setMinTokenLength（3）在RegexTokenizer

來源

2015-12-22 00:11:02

Spark DataFrame轉換 - 刪除少於3個字母的單詞

回答

相關問題