2014-03-05 54 views
1

我嘗試使用斯坦福NER解析產品數據。我的訓練數據如下所示:使用斯坦福NER解析產品數據

iPhone 4 16GB black 
Nikon D5100 
Apple iPhone 4s 
kindle touch 
kindle fire 

現在我想訓練與數據NER,所以我必須先對其進行分類。斯坦福德網站提供了一個例子,他們解析一本書的一個章節,並用新行標記每個單詞。這不是在我的幫助的情況下,會引起比數據的樣子:

iPhone 
4 
16GB 
black 

「4」不應該在一個新的生產線,但是當我在一條線上把「iPhone 4」,在NER認爲「4」是代幣「iPhone」的類別。

我只需要一些幫助如何培訓NER的產品數據。你會建議什麼?你會將「iPhone」分類爲「手機」,「iPhone 4」也是「手機」嗎?

回答

0

我想知道你將能夠使用傳統(非遞歸)命名實體有效地提取信息。在我看來,你可能需要一些更結構化的,如:

<phone> 
    <model> iPhone <model> 
    <version> 4 </version> 
    <capacity> 16GB <capacity> 
    <color> black </color> 
</phone> 

如何使用CRF是this paper描述例如識別結構化命名實體。基本上,它學習每個實體類型的一個CRF,並結合後驗概率(來自每個CRF)來識別結構化命名實體。

事實上,這需要一些語料庫的重新設計,因爲實體應該有足夠的結構un訓練語料庫...