0
我正在做POS標記。考慮到訓練集中包含以下標記,將每個標記視爲Word1/POS標記和Word2/POS標記或將它們視爲Word1/Word2/POS標記中的一個單詞會更好嗎?在POS標記中分類以下單詞的最佳方法是什麼?
例子:(不需要POSTag被包括)
Bard/EMS
Interstate/Johnson
Polo/Ralph
IBC/Donoghue
ISC/Bunker
Bendix/King
mystery/comedy
Jeep/Eagle
B/T
Hawaiian/Japanese
IBM/PC
Princeton/Newport
editing/electronic
Heller/Breene
Davis/Zweig
Fleet/Norstar
a/k/a
1/2
任何建議表示讚賞。
你能否提供一些關於上下文的更多信息?目前還不清楚這是什麼。通常情況下,Word1/POStag Word2/POStag是您想要做的事情,因爲Word1/Word2/POStag只會對您的特定培訓集合有意義,如果這是一個非常有限的用例。這並不意味着你應該從上面那些關聯的單詞中失去你所擁有的信息 - 但它將與POS標籤分開保存。 – jdotjdot
上述那些令牌來自訓練集。例如像州際/約翰遜這樣的詞可能看起來很奇怪,但是當我爲「州際/約翰遜」搜索時,第一頁有兩個單獨的詞,即「州際/約翰遜」,「州際」,「約翰遜」。另一方面,像「Polo/Ralph」這樣的單詞比「Polo」「Ralph」更像是一個單獨的單詞。我試圖建立一個語言模型,你說的對,我的語言模型對我所擁有的訓練集有偏見。我想知道的是,在我的訓練集中出現這樣含糊的word1/word2。 ..將繼續 –
我應該認爲這是兩個單獨的詞,大多數時候似乎是正確的,但有時它可能不準確,如前面提到的a/k/a或Interstate/Johnson詞。那麼,我該怎麼做才能確保我的語言模型不會因爲這種不準確而丟失?當我看到像Fleet/Norstar/NNP這樣的令牌時,我想我是否應該將其視爲Fleet/NNP或Norstar/NNP或Fleet/Norstar/NNP,同時構建我的語言模型。 –