什麼是從文本中提取專有名稱的一些軟件和技術？

我有大量基於文本的文檔（100,000+），我想從中提取專有名稱（例如，一個人的名字）。什麼是從文本中提取專有名稱的一些軟件和技術？

任何人都可以推薦有助於實現此目標的技術和/或軟件。我對低級別的文本解析並不特別感興趣，就像我在更高層次的事情中一樣，比如識別和/或排名。

如果沒有某種形式的Natural Language Processing，就不能可靠地完成這樣的事情。一些常見的問題：

NLP可以使用周圍的語法結構來區分這些情況。

也就是說，你可以嘗試的一個簡單（而且天真）的技巧是使用單詞的大小寫。如果您在句子中間看到首字母大寫，通常是某種名稱。

您或許可以合理地假設任何這樣的詞在同一文檔中引用同一事物。一個序列中的兩個這樣的單詞可能是名稱/姓氏組合等。

如果文檔中的大小寫不可信，您可能可以相信正確的單詞列表，而不是爲了獲得正確的列表適用語言的名稱。

2011-01-21 23:32:23 thkala

也許你最好的選擇是將每個單詞與專有名詞詞典進行比較。

2011-01-21 22:59:35 theninjagreg

這是一個很好的方法，但是鑑於多種語言，創建一本好字典將會很困難。 –

如果您製作了所有獨特單詞的列表，然後刪除了字典中的所有單詞，該怎麼辦？

2011-01-21 23:01:12 David

恐怕如果沒有自動化技術來創建一組獨特單詞，將無法進行擴展。 –

你在尋找命名實體識別嗎？看看wikipedia文章。

斯坦福大學NLP小組有一個體面的即用型包here，同時提供GPL和商業許可證。

2011-01-22 18:38:22

回答