2
我寫了這樣的代碼:生成關鍵字和mllib
val hashingTF = new HashingTF()
val tfv: RDD[Vector] = sparkContext.parallelize(articlesList.map { t => hashingTF.transform(t.words) })
tfv.cache()
val idf = new IDF().fit(tfv)
val rate: RDD[Vector] = idf.transform(tfv)
如何從「速度」 RDD每個articlesList項目獲得前5名的關鍵字?
地址:
articlesList包含對象:
case class ArticleInfo (val url: String, val author: String, val date: String, val keyWords: List[String], val words: List[String])
字包含的文章的所有單詞。
我不明白率的結構,在文件中說:
@return an RDD of TF-IDF vectors
您提供關於什麼是足夠的信息,我不認爲articlesList,或什麼結果在率。但可能你想rate.top(5)的一些合適的順序? –
如果單詞只包含不同的術語,則所有術語的計算術語頻率將相同,因爲每個術語僅出現在不同術語列表中的一次。 –
對不起,所有的單詞都不清楚。 – BiTOk