2012-10-14 66 views
0

我正在做POS標記。考慮到訓練集中包含以下標記,將每個標記視爲Word1/POS標記和Word2/POS標記或將它們視爲Word1/Word2/POS標記中的一個單詞會更好嗎?在POS標記中分類以下單詞的最佳方法是什麼?

例子:(不需要POSTag被包括)

Bard/EMS 
Interstate/Johnson 
Polo/Ralph 
IBC/Donoghue 
ISC/Bunker 
Bendix/King 
mystery/comedy 
Jeep/Eagle 
B/T 
Hawaiian/Japanese 
IBM/PC 
Princeton/Newport 
editing/electronic 
Heller/Breene 
Davis/Zweig 
Fleet/Norstar 
a/k/a 
1/2 

任何建議表示讚賞。

+0

你能否提供一些關於上下文的更多信息?目前還不清楚這是什麼。通常情況下,Word1/POStag Word2/POStag是您想要做的事情,因爲Word1/Word2/POStag只會對您的特定培訓集合有意義,如果這是一個非常有限的用例。這並不意味着你應該從上面那些關聯的單詞中失去你所擁有的信息 - 但它將與POS標籤分開保存。 – jdotjdot

+0

上述那些令牌來自訓練集。例如像州際/約翰遜這樣的詞可能看起來很奇怪,但是當我爲「州際/約翰遜」搜索時,第一頁有兩個單獨的詞,即「州際/約翰遜」,「州際」,「約翰遜」。另一方面,像「Polo/Ralph」這樣的單詞比「Polo」「Ralph」更像是一個單獨的單詞。我試圖建立一個語言模型,你說的對,我的語言模型對我所擁有的訓練集有偏見。我想知道的是,在我的訓練集中出現這樣含糊的word1/word2。 ..將繼續 –

+0

我應該認爲這是兩個單獨的詞,大多數時候似乎是正確的,但有時它可能不準確,如前面提到的a/k/a或Interstate/Johnson詞。那麼,我該怎麼做才能確保我的語言模型不會因爲這種不準確而丟失?當我看到像Fleet/Norstar/NNP這樣的令牌時,我想我是否應該將其視爲Fleet/NNP或Norstar/NNP或Fleet/Norstar/NNP,同時構建我的語言模型。 –

回答

0

的例子似乎並不相對於落入一個類別使用斜線 - a/k/a是一個詞組的縮寫,1/2是一個數字,mystery/comedy表示發生在這兩個詞之間等 我覺得沒有處理可能適用於所有案例的組成單詞,因此更好的選擇是將它們作爲獨特單詞處理。在解碼階段,當標記器可能會呈現更多先前看不見的這種詞語的例子時,通常可以根據上下文而不是詞語本身作出決定。

相關問題