2016-09-29 31 views
1

我想在「文檔」內容是數字標識符(而不是文本)的數據上執行TF-IDF模型。所以我不想散列它們,只需使用數值即可。任何簡單的方法來產生org.apache.spark.mllib.linalg.VectorUDT?我必須編寫自己的非哈希HashingTF嗎?
或者自己計算tfidf更簡單嗎?關於數字的Spark IDFModel

+1

您可以使用** CountVectorizer **而不是** HashingTF **。 ** CountVectorizer **也可以用來獲得期限頻率向量。 –

+0

這很好,謝謝。寫它作爲答案,並承認這一點;) – kecso

+0

我很高興它幫助:-) –

回答

0

您可以使用CountVectorizer而不是HashingTF。 CountVectorizer也可用於獲取期限頻率向量。

要使用CountVectorizer,隨後IDF必須使用數據框代替RDD,因爲CountVectorizer僅在ML封裝支持。