亨利馬烏不同:rowsimilarity過程的輸出是在下面所述的步驟每次運行不同(保持所有輸入相同的所有運行)輸出是對於每次運行
第一步:seq2sparse(創建從文本矢量) 步驟2:ROWID(生成TFIDF載體) 步驟3:rowsimilarity(計算向量之間的相似度) 步驟4:seqdumper(二元載體爲文本)
UPDATE:
感謝Pferrel的答覆,
請建議我們如何可以指定「種子值」
,我現在用的命令是: $ {} MAHOUT_HOME /斌/亨利馬烏seq2sparse -i $ {數據} /序列數據-o $ {數據} /矢量-n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10
$ {MAHOUT_HOME}/bin/mahout rowid -i $ {DATA}/vectors/tfidf-vectors/part-r -00000 -o $ {DATA}/matrix
$ {MAHOUT_HOME}/bin/mahout rowsimilarity -i $ {DATA}/matrix/matrix -o $ {DATA}/similarity --similarityClassname SIMILARITY_COSINE -m 100 -ess -ow
嗨pferrel謝謝你的回答,請找到我的更新問題,並建議如何設置「種子價值」(我們使用Mahout 0.9版本) – Satendrakv
種子被用作隨機抽樣的「種子」,是僅在需要完全可重現的結果時才使用。否則基於隨機抽樣的結果會有一些細微的變化。 項目相似性僅用於協作過濾的原因,並對數據進行降採樣以保持O(n)處的計算結果,並且在某點之後數據的收益遞減。順便說一句,有一個新的Spark版本,在Mahout 0.11.x中運行速度提高了10倍,這裏http://mahout.apache.org/users/algorithms/intro-cooccurrence-spark.html – pferrel
對於協同過濾對數似然比(LLR)在我嘗試過的每一種情況下,都比Cosine做得更好。 – pferrel