我有大量基於文本的文檔(100,000+),我想從中提取專有名稱(例如,一個人的名字)。什麼是從文本中提取專有名稱的一些軟件和技術?
任何人都可以推薦有助於實現此目標的技術和/或軟件。我對低級別的文本解析並不特別感興趣,就像我在更高層次的事情中一樣,比如識別和/或排名。
我有大量基於文本的文檔(100,000+),我想從中提取專有名稱(例如,一個人的名字)。什麼是從文本中提取專有名稱的一些軟件和技術?
任何人都可以推薦有助於實現此目標的技術和/或軟件。我對低級別的文本解析並不特別感興趣,就像我在更高層次的事情中一樣,比如識別和/或排名。
如果沒有某種形式的Natural Language Processing,就不能可靠地完成這樣的事情。一些常見的問題:
名稱,同時也是常用的詞:John Black
多種語言和各種形式的同一個單詞。
引用不同事物的名稱。 Lily
可能是一個人,一個地方,一隻貓或只是一朵花的名字。
NLP可以使用周圍的語法結構來區分這些情況。
也就是說,你可以嘗試的一個簡單(而且天真)的技巧是使用單詞的大小寫。如果您在句子中間看到首字母大寫,通常是某種名稱。
您或許可以合理地假設任何這樣的詞在同一文檔中引用同一事物。一個序列中的兩個這樣的單詞可能是名稱/姓氏組合等。
如果文檔中的大小寫不可信,您可能可以相信正確的單詞列表,而不是爲了獲得正確的列表適用語言的名稱。
也許你最好的選擇是將每個單詞與專有名詞詞典進行比較。
如果您製作了所有獨特單詞的列表,然後刪除了字典中的所有單詞,該怎麼辦?
恐怕如果沒有自動化技術來創建一組獨特單詞,將無法進行擴展。 –
這是一個很好的方法,但是鑑於多種語言,創建一本好字典將會很困難。 –