0

我將文檔排列在文件夾中作爲類別稱爲類別。對於新的輸入(例如問題),我必須確定它的類別。用MALLET做這件事的最好方法是什麼?我已經閱讀了多篇關於這方面的文章,但是找不到這種方法。帶有用Mallet進行序列標記的文本分類/文檔分類

此外,我是否需要對輸入文本進行序列標記?

回答

1
  1. 首先,您需要從排列爲文件夾的文檔開發培訓模型。對於木槌,每個文件夾將包含一個或多個文件,每個文件夾將代表他們的班級。

一旦你有你的培訓文件,你需要創建一個Mallet可以理解的文件。轉到Mallet的bin文件夾並在命令行中輸入如下命令 -

mallet import-dir --input directory:\...\parentfolder\* --preserve-case --remove-stopwords --binary-features --gram-sizes 1 --output directory:\mallet-file-name 

這只是一個示例。在這個查詢中的參數可以如果鍵入完全顯示的following--

mallet import-dir --help 
  • 一旦創建此槌文件,需要通過把一個命令來訓練模型如following--

    槌列車分類--trainer algorithmname --input目錄:\槌文件名稱--output-分類目錄:... \模型

  • 現在,該模型已創建,您可以使用該模型對文檔進行分類與未知的類。

    mallet classify-file --input directory:\...\data --output - --classifier classifier 
    

    這將在標準輸出中提供名爲data的文檔的類。

    如果您需要使用序列標記或不依賴於您嘗試分類的數據。

    相關問題