2016-12-30 52 views
1

我是NLP的新手,最近一直在玩NTLK和Spacy。但是,我找不到在某篇文章中搜索職位的方法(例如:產品經理,首席營銷官等)。在使用Spacy或NLTK的文章中搜索職位名稱

例如,我有1000篇,我想一切有我感興趣的工作頭銜的文章。

此外,什麼實體類型並不職稱下跌?我檢查https://spacy.io/docs/usage/entity-recognition,並沒有看到它在那裏。我有計劃添加它嗎?

感謝。

+0

是的,在你提到的有限範圍內的工作職務是某種類型的NE的,但我相信你會知道你在找什麼話,或者你想具體的功能,可拍攝 –

+0

職稱是一種NP POS標籤,通常是ORG相關的實體標籤。基本上,這聽起來像你想要一個職位的標題。您可能想嘗試製作職位列表,併爲這些職位提取功能,然後自己製作一個標籤。將更好地爲您的知識領域工作。 –

回答

2

Spacy NER不支持「職位」實體,如Nathan所述。但是您可以爲您的用例創建一個自定義命名實體。這裏是官方文檔link。你可以找到一步一步的指導,在那裏訓練Spacy NER。

您需要標記數據來訓練您的NER。一般來說,您需要至少4000-5000個火車實例和2000個實例進行測試。您擁有的訓練數據越多,NER的表現就越好。

以下是一些示例培訓數據。

TRAIN_DATA = [ 
    ('Who is Shaka Khan?', { 
     'entities': [(7, 17, 'PERSON')] 
    }), 
    ('I like London and Berlin.', { 
     'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')] 
    }), 
    ('I work as software engineer.', { 
     'entities': [(9, 18, 'JOBTITLE')] 
    }), 

]