我試圖使用Mallet
字面上的主題建模和沒有的expirience等我的目的是要得到,我現在所擁有的中號文件ñ主題,每個文檔與一個或多個話題進行分類(文檔1 =主題1;文檔2 =主題2,可能主題3),並在未來對此文檔進行分類。我試圖首先使用bigartm
,但在這個程序中沒有發現任何分類,只有主題建模。所以槌,我創建了一個corpus.txt文件,格式如下:馬槌基本用法。第一步
Doc.num. \t(tab) Label(actualy 1 everywhere) \t Text 1 1 some text of document to classify 2 1 another doc text ...
現在把它給特徵序列格式槌與
bin/mallet import-file --input corpus.txt --output foo.mallet--keep-sequence
,然後獲取主題從它
bin/mallet train-topics --input foo.mallet --output-state state.gz --output-topic-keys topic-keys.txt --output-doc-topics doc-topics.txt
因此,現在一般的問題是如何使用槌子(火車分類器?)將每個現有文檔分配給我找到的主題,並保存此結果以應用於將要用此主題進行分類的未來文檔。
感謝
那麼,你的意思是說我應該爲了將來的目的而自己編寫腳本,並且在'Mallet'中沒有這樣的機會來訓練這個主題的分類器嗎? – Kirill
@Kirill:有可能將「預先訓練的」主題模型應用於Mallet中的新文檔; 「我沒有手中的命令行語法('bin/mallet help'給了你很多有用的信息,槌子命令'train-classifier'和'classify-file'可能是你感興趣的。 – jknappen