2013-06-12 23 views
0

我需要開發不使用輸入文本作爲一組功能的自定義文本分類解決方案,而是使用一些派生參數,例如,文本中URL的數量,表示不同語音部分的詞的數量,平均詞長等(讓我們假設我們能夠得到給定輸入文檔的一組特徵)。基於自定義功能的文本分類

最初我想過使用OpenNLP爲我做分類(通過DocumentCategorizerME),但正如我所看到的,它只使用文本字符串作爲可能的功能,並且不可能使用非謹慎的功能(例如浮點數代表平均字長)。

所以問題是:

  1. 我這麼想嗎?實際上是否有可能使OpenNLP將其與整數或浮點特徵一起用於分類
  2. 如果否,那麼我應該使用的建議庫/工具包是什麼?
+0

[Java機器學習庫用於商業用途?]可能的重複?(http://stackoverflow.com/questions/6829361/java-machine-learning-library-for-commercial-use) –

+0

你標記自己的問題爲重複?? – inquisitive

回答

1

你應該嘗試Mallet來訓練你自己的分類器與自己的功能。 Here是一個讓你開始的教程。