我如何計算兩個文檔之間的距離?在數字的k-means中,你必須計算兩點之間的距離。我知道我可以使用餘弦函數。 我想對rss文件執行羣集。我已經完成了並刪除了文檔中的停用詞。我已經在每個文檔中統計了單詞的頻率。現在我想實現k均值算法。使用K-means算法進行文檔聚類
-1
A
回答
1
我假設你的難度在創建特徵向量?創建用於每個文件由
- 收集所有字一起形成一個巨大的矢量
- 設置該向量的元素是項的計數的特徵向量。
舉例來說,如果你有
Document 1 = the quick brown fox jumped over the brown dog
Document 2 = the brown cows eat hippo meat
那麼總的組字是[的,快速的,棕色,狐狸,跳下,結束了,狗,牛,吃,河馬,肉]和文獻向量是
Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]
而現在你只要,你可以用它來表示文檔兩大巨頭的特徵向量,你可以使用K-means聚類。正如其他人所說,歐幾里得距離可以用來計算文件之間的距離。
1
有各種距離函數。一種是Euclidean Distance。
0
您可以使用n維繫統的歐幾里得距離公式。
sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ...)
相關問題
- 1. 使用mahout進行Kmeans聚類
- 2. 使用scipy kmeans進行聚類分析
- 3. KMEANS文本數據進行聚類
- 4. 聚類超過3個文檔時Kmeans進行異常緩慢
- 5. 平分文檔聚類的KMeans
- 6. 計算Kmeans聚類的誤差
- 7. 在Python中對文檔進行聚類
- 8. 聚類和kmeans有不清楚的文檔
- 9. 聚類算法的功能縮放(規範化)(如Kmeans&EM)
- 10. 如何格式化Spark Spark kmeans聚類算法的數據?
- 11. Kmeans聚類和文本挖掘在R
- 12. 聚類基線比較,KMeans
- 13. KMeans中的數據聚類使用二叉樹結構的算法
- 14. 文檔聚類
- 15. 基於地理半徑對推文進行聚類的算法
- 16. 這個變量應該用什麼分類算法進行文檔分類?
- 17. 用Mahout使用Clojure進行聚類(fkmeans)
- 18. 使用CoreNLP ColumnDataClassifier進行大型文檔集的文檔分類
- 19. Matlab的:二進制使用來自聚類算法
- 20. 使用kmeans算法構建數據模型並使用它對新數據集進行分類
- 21. 聚類標籤和聚類中心(R中的kmeans)
- 22. Kmeans聚類識別R中的知識
- 23. kmeans聚類與數據框(scipy)
- 24. 將kmeans聚類結果導出到.csv
- 25. Kmeans聚類如何在tensorflow中工作?
- 26. opencv kmeans聚類的輸入矩陣
- 27. R繪製kmeans與熱圖聚類
- 28. 如何將KMEANS算法應用於從PSO算法中指定的確定的聚類位置?
- 29. 使用MySQL進行「聚類分析」
- 30. 使用LAMP進行聚類分析
你如何通過k-means運行這些文檔向量?你是否必須迭代計算每個文檔和每個其他文檔之間的距離? – 2013-03-07 22:50:57