2011-07-14 109 views
1

如何解析自由格式文本字符串以根據位置和名稱字典檢測位置和名稱等內容?在我的特定應用程序中,如果我的字典中沒有更多的條目,那麼將會有數萬個條目,所以我很確定只是通過它們來完成所有的事情都是不可能的。此外,是否有任何方法添加「模糊」匹配,以便您還可以檢測字典單詞的編輯中的子字符串?如果我沒有弄錯,它屬於自然語言處理領域,更具體地說是命名實體識別(NER);然而,我試圖找到關於NER背後的算法和流程的信息已經空了。我寧願使用Python,因爲我最熟悉的是,儘管我願意考慮其他解決方案。從字典中查找文本字符串中的單詞

回答

1

你可以嘗試下載斯坦福命名實體識別器: http://nlp.stanford.edu/software/CRF-NER.shtml

如果你不想用別人的代碼,你想自己做,我建議採取看看算法他們的相關論文,因爲他們使用的條件隨機場模型已經成爲NER的一種相當常見的方法。

我不確定如何回答你的問題的第二部分關於尋找沒有更多細節的子字符串。您可以修改斯坦福大學的課程,或者您可以使用詞性標註器在文本中標記專有名詞。這不會將位置與名稱區分開來,但它會使找到與每個專有名詞相隔x個字的單詞變得非常簡單。

相關問題