所以我終於OpenNLP納入我的項目,我已經成功培訓了15,000行的訓練數據的我的模型,將其存儲,並且可以加載它,當我想用它來識別我的程序中的實體! ,我用它來識別井號標籤,所以我的訓練數據看起來是這樣的: ...
Jim , I know you to be a fighter <START:HASHTAG> #usmarine <END> @ USMC Kira has your
我有許多美國學校年鑑的人臉肖像和名稱的掃描頁面。來自頁面的所有文本都是OCR化的並且每個頁面以多個版本收集: 非結構化文本文件。 Example Xml帶有每句話的座標。 Example 帶有每個單個字母的座標的Xml。 Example 的目標是,以確定哪些文本字符串代表的人的名字,並將其與人像有關。問題在於每一本年鑑都是獨一無二的,每一頁都可能是獨一無二的,所以沒有共同的模式可以應用(但可能有一
我使用Python包裝斯坦福NLP 的代碼,以查找命名實體是: sentence = "Mr. Jhon was noted to have a cyst at his visit back in 2011."
result = nlp.ner(sentence)
for ne in result:
if ne[1] == 'PERSON':
print(ne)
輸出
我正在研究一個簡單的基於語法的分析器。爲此,我需要首先標記輸入。在我的文章中出現了很多城市(例如紐約,舊金山等)。當我使用標準的nltk word_tokenizer時,所有這些城市都會被拆分。 from nltk import word_tokenize
word_tokenize('What are we going to do in San Francisco?')
電流輸出: ['W