關於數字的Spark IDFModel

2016-09-29 31 views 1 likes

我想在「文檔」內容是數字標識符（而不是文本）的數據上執行TF-IDF模型。所以我不想散列它們，只需使用數值即可。任何簡單的方法來產生org.apache.spark.mllib.linalg.VectorUDT？我必須編寫自己的非哈希HashingTF嗎？
或者自己計算tfidf更簡單嗎？關於數字的Spark IDFModel

來源

2016-09-29 kecso

您可以使用** CountVectorizer **而不是** HashingTF **。 ** CountVectorizer **也可以用來獲得期限頻率向量。 –

這很好，謝謝。寫它作爲答案，並承認這一點;） – kecso

我很高興它幫助:-) –

回答

您可以使用CountVectorizer而不是HashingTF。 CountVectorizer也可用於獲取期限頻率向量。

要使用CountVectorizer，隨後IDF必須使用數據框代替RDD，因爲CountVectorizer僅在ML封裝支持。

來源

2016-09-30 07:59:53

相關問題

11. 基於日期的Spark連續整數
12. 用於增量數據的Flink或Spark
13. Spark Streaming累計字數
14. Apache Spark MLlib - 從數據獲取LabeledPoint（Java）
15. Spark和Metastore關係
16. Graphql關於字段的未知參數
17. 關於大數字聚集的錯誤
18. 關於檢查字符串的數量
19. 關於數字的正則表達式
20. 基於關聯字段數的範圍
21. 關於數字問題的FluentValidation
22. Spark中的關係轉換
23. Spark的方法關閉
24. 關於字典
25. Spark Spark RDD中的字符串替換
26. 轉換數字數組於關聯
27. 關於將數字拆分爲數千
28. 關於return關鍵字
29. 關於關鍵字這個
30. 關於該volatile關鍵字