2012-04-10 50 views
1

我使用轉換爲純文本格式的html文檔爲TokenNameFinder創建了一套訓練集,但我的精度很低,我想使用HTML標記作爲訓練的一部分。就像粗體字,以及不同邊距大小的句子。 OpenNLP會接受並使用這些標籤來創建規則嗎? 有沒有另一種方法來利用這些標籤來提高精度?OpenNLP可以使用HTML標籤作爲培訓的一部分嗎?

回答

0

目前尚不清楚使用HTML標記來訓練OpenNLP的含義。 火車輸入是一個註釋標記化的句子:

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 . 
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group . 

要使用你需要註解的標準工具遵循此慣例訓練的OpenNLP模型。請注意,註釋不符合XML標準。

您可以將註釋直接嵌入到將用於培訓的HTML文檔中。它甚至可以幫助具有額外上下文的分類器,但是我從未讀過關於它的任何實驗結果。

你應該記住訓練數據應該被標記。這意味着您應該在單詞和標點之間以及文本元素和html之間加入空格:

<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group . 
+0

謝謝!這正是我想要的。現在,我要用HTML標籤測試精度。我的火車輸入已經被標記。 – Shyba 2012-04-11 04:40:47

相關問題