-1
您是否知道NLP中的某些論文或算法能夠從與給定實體(詞)相關的文本中提取句子。我想處理一些評論(主要是技術),但是我發現很多評論都提到了更多的產品(它們會進行比較)。我想從該文本中提取與某個產品相關的句子,或刪除與特定命名實體(產品)無關的句子。將相關句子提取到實體
我的questin是如何做到這一點?有沒有相關的論文?是這樣做的一些工具包或API?
您是否知道NLP中的某些論文或算法能夠從與給定實體(詞)相關的文本中提取句子。我想處理一些評論(主要是技術),但是我發現很多評論都提到了更多的產品(它們會進行比較)。我想從該文本中提取與某個產品相關的句子,或刪除與特定命名實體(產品)無關的句子。將相關句子提取到實體
我的questin是如何做到這一點?有沒有相關的論文?是這樣做的一些工具包或API?
你想要的是一個命名實體識別器(NER)。給定輸入句子後,NER將把句子中的各個實體標識爲人員,組織,產品等。然後,您可以檢查被識別爲產品的實體,並相應地保留或丟棄該句子。一個非常簡單的可能性就是在Python中使用NLTK的命名實體識別器。這裏有一個例子:
import nltk
sent = "Albert Einstein spent many years at Princeton University in New Jersey"
sent1 = nltk.word_tokenize(sent)
sent2 = nltk.pos_tag(sent1)
sent3 = nltk.ne_chunk(sent2)
print sent3
輸出將是:
(S
(PERSON Albert/NNP)
(PERSON Einstein/NNP)
spent/VBD
many/JJ
years/NNS
at/IN
(ORGANIZATION Princeton/NNP University/NNP)
in/IN
(GPE New/NNP Jersey/NNP))
NLTK很適合這個簡單的例子,但說實話,我不知道它是如何準確,或者也可以是定製以適合您的目的(識別產品)。但我知道Stanford NER既可定製也可準確,因此您可能需要查看上述鏈接。
https://www.google.com.sg/search?q=name+enitity+recognition – alvas