任何人都可以建議Mahout準確應用LDA的輸入類型。這將是很好,如果有人請詳細寫下來抓住輸出在Apache Mahout中LDA的輸入應該是什麼
3
A
回答
6
關於mahout中LDA最新形式的文檔是有點稀疏。現在叫做'cvb'。輸入可以是文本文件的目錄或其他任何內容(lucene索引,無論),你可以進入mahout形式。輸出是以向量形式的關鍵字表示的定義數量的主題(請參見下面的示例)。
我昨天實際上已經通過一個例子,所以我將在下面粘貼一些命令以便有用。該示例使用可使用命令在http://svn.apache.org/repos/asf/mahout/tags/mahout-0.4/examples/bin/build-reuters.sh
發現(可能是過時的)被加載路透社的數據集(例如:輸入會去$ BASEDIR /工作/路透輸出/下)
#設置一些目錄
basedir=[set to your current directory]
workdir=$basedir/work
#轉換文本格式SequenceFile
mahout seqdirectory \
-i $basedir/work/reuters-out/ \
-o $basedir/work/reuters-out-seqdir -c UTF-8 -chunk 5
#使稀疏矢量
mahout seq2sparse \
-i $workdir/reuters-out-seqdir/ \
-o $workdir/reuters-out-seqdir-sparse-lda -ow --maxDFPercent 85 --namedVector
#使用rowid將稀疏向量轉換爲cvb集羣所需的格式(即將Text鍵更改爲Integer)。
mahout rowid \
-i $workdir/reuters-out-seqdir-sparse-lda/tfidf-vectors \
-o $workdir/reuters-out-matrix
#重新運行LDA使用本地命令
rm -rf $workdir/reuters-ldalocal $workdir/reuters-ldalocal-topics
mahout cvb0_local \
-i $workdir/reuters-out-matrix/matrix \
-d $workdir/reuters-out-seqdir-sparse-lda/dictionary.file-* \
-a 0.5 \
-top 4 \
-do $workdir/reuters-ldalocal \
-to $workdir/reuters-ldalocal-topics
#檢查通過顯示每個主題的頂部10個字的輸出:
mahout vectordump \
-i $workdir/reuters-ldalocal-topics \
--dictionary $workdir/reuters-out-seqdir-sparse-lda/dictionary.file-* \
--dictionaryType sequencefile \
--vectorSize 10 \
-sort $workdir/reuters-ldalocal-topics
的輸出看起來像這樣:
{said:12099.546951505947,its:10566.985916212521,year:8333.832279174481,dlrs:6810.206141819796,would:6721.746234281428,been:5329.6753421933945,pct:5313.369659313288,billion:5248.896294419074,from:5158.844069513761,he:4764.16474083869}
{mln:11816.704457054004,cts:7169.159831834528,mar:7081.733955520149,vs:6891.4237560938955,new:6560.720833985039,has:6543.337854529879,1986:6043.850306111383,company:5720.025984843189,pct:5711.399291651732,last:5683.42288907518}
{inc:9704.372248376018,mln:9278.314888220315,said:8562.15377124544,net:7827.149394593728,vs:7736.055883103908,dlrs:7057.160090724306,cts:6177.1590584797605,market:5936.459595191674,exchange:5371.911394611647,co:5314.4250562522}
{said:12514.11646492775,u.s:9207.239974183465,from:7679.363044582878,mar:6588.0987950965,bank:6491.528794438723,pct:6100.417335098452,has:5352.990453581582,dlrs:5091.309618540722,about:4886.923813272583,13:4695.692587191373}
免責聲明 - 這是我的筆記釋義,可能有小錯誤。祝你好運!
相關問題
- 1. 如何使用apache mahout實現LDA?
- 2. 皮爾遜係數在Apache Mahout中的動機是什麼
- 3. 什麼是發行人的祕密?應該輸入什麼?
- 4. 什麼時候應該更喜歡Mahout的SequentialAccessSparseVector而不是RandomAccessSparseVector?
- 5. FFT圖像變換的輸入和輸出應該是什麼?
- 6. mahout 0.7中Mahout 0.5中VectorWritable.addTo的等效方法是什麼?
- 7. 應該是什麼
- 8. 確定Mahout LDA輸出上的文檔ID
- 9. Rspec中的'應該'是什麼?爲什麼`應該redirect_to`工作?
- 10. 應該是什麼在JavaScript
- 11. 應該是什麼在Java
- 12. LDA Mahout只有一個主題
- 13. 爲什麼我應該使用goog.ui.Checkbox而不是常規輸入?
- 14. Django:什麼是`sys.path`應該是什麼?
- 15. Apache Mahout 0.9 - Java中的NaiveBayes
- 16. apache Mahout中的錯誤值
- 17. Apache Mahout中的矢量化
- 18. 我應該在場景中放什麼,我的狀態應該是什麼?
- 19. swift中輸入'()'是什麼?
- 20. Apache Mahout忠告?
- 21. 什麼是適當的php.ini路徑,我應該放入什麼?
- 22. 什麼應該輸入到$ this-> paginate()的括號中()
- 23. 什麼是分類(LDA)功能完成?
- 24. 我應該使用mahout嗎?
- 25. 在決定使用Apache還是不使用Apache Spark時應該考慮什麼?
- 26. 如何在mahout-distribution-0.7中使用jar文件運行lda
- 27. 視圖控制器應該在視圖中應該是什麼?
- 28. @AtmosphereHandlerService中的路徑應該是什麼
- 29. Mahout LDA如何預測測試數據集上的主題?
- 30. 應該是什麼Laravel和什麼應該Vue.js
非常感謝Ziggy。欣賞很多 –