2011-02-22 46 views
4

我嘗試使用NLTK在python中進行命名實體識別。 我想提取個人技能列表。 我有技能列表,並希望在申請中搜索並標記技能。 我注意到NLTK擁有NER標籤,用於預定義標籤,如Person,Location等。 Python中是否有外部gazetter tagger我可以使用? 任何想法如何做到這一點比搜索術語更復雜(有時多詞術語)?使用Python從個人Gazetter中命名實體識別

感謝, 阿薩夫

回答

1

我沒有使用NLTK最近就夠了,但如果你有,你知道是技能的話,你不需要做NER-只是一個文本搜索。

也許使用Lucene或其他一些搜索庫來查找文本,然後對它進行註釋?這是很多工作,但如果你正在處理大量可能沒問題的數據。或者,您可以將正則表達式搜索集中在一起,速度較慢,但​​對於較小數量的數據可能工作正常,並且實現起來會更容易。

1

看看RegexpTagger並最終RegexpParser,我想這正是你要找的。

您可以創建自己的POS標籤,即。將技能映射到標籤,然後輕鬆定義語法。

標記器的一些示例代碼是in this pdf

相關問題