2012-01-05 128 views
1

爲了找到兩個文檔之間的相似度,我計劃採用mahout來執行此任務。計算mahout中的餘弦相似度

的方法將包括:

  1. 該文檔轉換爲TF-IDF
  2. 移除停止詞(使搜索有效)
  3. 運行餘弦相似度
  4. 給相似
  5. 程度

我打算在mahout中實現這一點。我是一個初學者mahout,有人可以幫我幾個教程來執行此操作,並告訴我,如果這是一個有效的方法來計算文檔之間的相似度

+0

在Windows上使用mahout是明智的,或者我應該轉移到linux ..請幫助 – siddharth 2012-01-05 04:37:56

+0

你已經嘗試過了什麼?你面臨什麼問題?如果你需要一個一般的介紹,你應該閱讀Mahout in Action。 – 2012-01-05 10:24:16

回答

2

你不需要實現任何東西。使用seqdirectory和seq2sparse來矢量化你的數據。之後,您可以使用RowSimilarityJob來計算成對餘弦相似度。

+0

感謝您的幫助。我現在正在研究mahout – siddharth 2012-01-09 14:44:07