0
我將文檔排列在文件夾中作爲類別稱爲類別。對於新的輸入(例如問題),我必須確定它的類別。用MALLET做這件事的最好方法是什麼?我已經閱讀了多篇關於這方面的文章,但是找不到這種方法。帶有用Mallet進行序列標記的文本分類/文檔分類
此外,我是否需要對輸入文本進行序列標記?
我將文檔排列在文件夾中作爲類別稱爲類別。對於新的輸入(例如問題),我必須確定它的類別。用MALLET做這件事的最好方法是什麼?我已經閱讀了多篇關於這方面的文章,但是找不到這種方法。帶有用Mallet進行序列標記的文本分類/文檔分類
此外,我是否需要對輸入文本進行序列標記?
一旦你有你的培訓文件,你需要創建一個Mallet可以理解的文件。轉到Mallet的bin文件夾並在命令行中輸入如下命令 -
mallet import-dir --input directory:\...\parentfolder\* --preserve-case --remove-stopwords --binary-features --gram-sizes 1 --output directory:\mallet-file-name
這只是一個示例。在這個查詢中的參數可以如果鍵入完全顯示的following--
mallet import-dir --help
一旦創建此槌文件,需要通過把一個命令來訓練模型如following--
槌列車分類--trainer algorithmname --input目錄:\槌文件名稱--output-分類目錄:... \模型
現在,該模型已創建,您可以使用該模型對文檔進行分類與未知的類。
mallet classify-file --input directory:\...\data --output - --classifier classifier
這將在標準輸出中提供名爲data
的文檔的類。
如果您需要使用序列標記或不依賴於您嘗試分類的數據。