1
我想在「文檔」內容是數字標識符(而不是文本)的數據上執行TF-IDF模型。所以我不想散列它們,只需使用數值即可。任何簡單的方法來產生org.apache.spark.mllib.linalg.VectorUDT?我必須編寫自己的非哈希HashingTF嗎?
或者自己計算tfidf更簡單嗎?關於數字的Spark IDFModel
我想在「文檔」內容是數字標識符(而不是文本)的數據上執行TF-IDF模型。所以我不想散列它們,只需使用數值即可。任何簡單的方法來產生org.apache.spark.mllib.linalg.VectorUDT?我必須編寫自己的非哈希HashingTF嗎?
或者自己計算tfidf更簡單嗎?關於數字的Spark IDFModel
您可以使用CountVectorizer而不是HashingTF。 CountVectorizer也可用於獲取期限頻率向量。
要使用CountVectorizer,隨後IDF必須使用數據框代替RDD,因爲CountVectorizer僅在ML封裝支持。
您可以使用** CountVectorizer **而不是** HashingTF **。 ** CountVectorizer **也可以用來獲得期限頻率向量。 –
這很好,謝謝。寫它作爲答案,並承認這一點;) – kecso
我很高興它幫助:-) –