stanford tagger - 標記速度

關於stanford標記器，我提供了自己的標記語料庫來訓練stanford標記器的模型。但是，我意識到我的模型標記器的標記速度比默認的wsjleft3標記器模型慢得多。什麼可能對此有所貢獻？我該如何提高模型的速度？（除了Penn樹庫標記集之外，我還添加了3個或4個自定義標記）stanford tagger - 標記速度

來源

2010-07-14 goh

雖然添加更多特性（在arch中）會使其速度稍慢（因爲特徵提取是主要運行時成本之一），但是，速度的兩個大的決定因素有：

在特徵使用背景標籤的數量：left3words使用先前和第二先前標籤（2），所以是相當快的，雙向使用4（兩個在每個方），所以是非常緩慢。僅使用1 或0上下文標記的標記器再次快得多。
通常設置標籤的大小，特別是可應用於未知單詞的一組開放類標籤的大小。（但是添加3或4應該幾乎沒有區別 - 當您將標籤設置爲數百個標籤時，這是有問題的。）

來源

2010-07-14 18:11:05

stanford tagger - 標記速度

回答

相關問題