2011-01-21 63 views

回答

1

如果沒有某種形式的Natural Language Processing,就不能可靠地完成這樣的事情。一些常見的問題:

  • 名稱,同時也是常用的詞:John Black

  • 多種語言和各種形式的同一個單詞。

  • 引用不同事物的名稱。 Lily可能是一個人,一個地方,一隻貓或只是一朵花的名字。

NLP可以使用周圍的語法結構來區分這些情況。

也就是說,你可以嘗試的一個簡單(而且天真)的技巧是使用單詞的大小寫。如果您在句子中間看到首字母大寫,通常是某種名稱。

您或許可以合理地假設任何這樣的詞在同一文檔中引用同一事物。一個序列中的兩個這樣的單詞可能是名稱/姓氏組合等。

如果文檔中的大小寫不可信,您可能可以相信正確的單詞列表,而不是爲了獲得正確的列表適用語言的名稱。

0

也許你最好的選擇是將每個單詞與專有名詞詞典進行比較。

+0

這是一個很好的方法,但是鑑於多種語言,創建一本好字典將會很困難。 –

0

如果您製作了所有獨特單詞的列表,然後刪除了字典中的所有單詞,該怎麼辦?

+0

恐怕如果沒有自動化技術來創建一組獨特單詞,將無法進行擴展。 –

4

你在尋找命名實體識別嗎?看看wikipedia文章。

斯坦福大學NLP小組有一個體面的即用型包here,同時提供GPL和商業許可證。

相關問題