1
我使用RegexTokenizer
和StopWordsRemover
到tokenize
我的數據集爲模型大廈。在同一時間,我想刪除少於3個字母的單詞。還有http
和https
。我怎樣才能做到這一點?這裏是我的代碼: `Spark DataFrame轉換 - 刪除少於3個字母的單詞
val trainDF = sqlContext.read.jdbc(url, table, prop)
// Tokenize
val tokenizer = new RegexTokenizer()
.setGaps(false)
.setPattern("\\p{L}+")
.setInputCol("posttext")
.setOutputCol("words")
val tokenizedDF = tokenizer.transform(trainDF)
val filterer = new StopWordsRemover()
.setCaseSensitive(false)
.setInputCol("words")
.setOutputCol("tokens")
val filteredDF = filterer.transform(tokenizedDF)`