2010-07-14 48 views
2

關於stanford標記器,我提供了自己的標記語料庫來訓練stanford標記器的模型。但是,我意識到我的模型標記器的標記速度比默認的wsjleft3標記器模型慢得多。什麼可能對此有所貢獻?我該如何提高模型的速度? (除了Penn樹庫標記集之外,我還添加了3個或4個自定義標記)stanford tagger - 標記速度

回答

4

雖然添加更多特性(在arch中)會使其速度稍慢(因爲特徵提取是主要運行時成本之一),但是,速度的兩個大的決定因素有:

  • 在 特徵使用背景標籤的數量:left3words使用 先前和第二先前標籤(2) ,所以是相當快的,雙向 使用4(兩個在每個方),所以是 非常緩慢。僅使用1 或0上下文標記的標記器再次快得多 。
  • 通常設置標籤的大小,特別是可應用於未知單詞的一組開放類標籤的大小。 (但是添加3或4應該幾乎沒有區別 - 當您將標籤設置爲數百個標籤時,這是有問題的。)
相關問題