2013-07-21 45 views
-1

您是否知道NLP中的某些論文或算法能夠從與給定實體(詞)相關的文本中提取句子。我想處理一些評論(主要是技術),但是我發現很多評論都提到了更多的產品(它們會進行比較)。我想從該文本中提取與某個產品相關的句子,或刪除與特定命名實體(產品)無關的句子。將相關句子提取到實體

我的questin是如何做到這一點?有沒有相關的論文?是這樣做的一些工具包或API?

+1

https://www.google.com.sg/search?q=name+enitity+recognition – alvas

回答

2

你想要的是一個命名實體識別器(NER)。給定輸入句子後,NER將把句子中的各個實體標識爲人員,組織,產品等。然後,您可以檢查被識別爲產品的實體,並相應地保留或丟棄該句子。一個非常簡單的可能性就是在Python中使用NLTK的命名實體識別器。這裏有一個例子:

import nltk 
sent = "Albert Einstein spent many years at Princeton University in New Jersey" 
sent1 = nltk.word_tokenize(sent) 
sent2 = nltk.pos_tag(sent1) 
sent3 = nltk.ne_chunk(sent2) 
print sent3 

輸出將是:

(S 
    (PERSON Albert/NNP) 
    (PERSON Einstein/NNP) 
    spent/VBD 
    many/JJ 
    years/NNS 
    at/IN 
    (ORGANIZATION Princeton/NNP University/NNP) 
    in/IN 
    (GPE New/NNP Jersey/NNP)) 

NLTK很適合這個簡單的例子,但說實話,我不知道它是如何準確,或者也可以是定製以適合您的目的(識別產品)。但我知道Stanford NER既可定製也可準確,因此您可能需要查看上述鏈接。