2014-01-23 40 views
1

有一個CSV格式的數據集。如何使用apache mahout實現LDA?

FileName,Topic,Tag,Frequency 
File-1,Topic -1,Tag-1,10 
File-2,Topic -2,Tag-2,10 
File-3,Topic -3,Tag-2,10 
File-4,Topic -4,Tag-4,10 
File-5,Topic -1,Tag-5,10 
File-6,Topic -3,Tag-1,10 
File-7,Topic -1,Tag-1,10 

我需要使用mahout LDA(潛在狄利克雷分配)算法找到標記之間的相關性。任何人都可以幫助我找到如何使用Apache Mahout來做到這一點。

我也很困惑,在什麼輸入格式mahout想要?

這將是有益的,如果有人請分享給象夫一些好東西初學者

回答

0

也許我來不及在回答。但值得努力,請查看blog。希望你有一些想法繼續下去。