我需要您的幫助,我正在做NER項目使用NetBeans v.8.0.2。名稱阿拉伯文檔的實體識別
我需要得到人名和地方任何阿拉伯語文檔文件並把它們歸類爲人名,地點。我看到所有斯坦福文件,POS標記器,解析器還有斯坦福NER。我嘗試了所有這些,標記器與我一起工作良好。
但是我已經和語法上的問題尤其是在這行代碼
LexicalizedParser lp = LexicalizedParser.loadModel(grammar, options);
從ParserDemo沒有輸出出現。我是否首先需要解析器來標記文檔,然後才能使用POS標記器,或者我可以使用POS標記器進行一些編輯(如使用if語句將所有NNP組合在一起,並且相同的地方)。
親愛的主席先生,非常感謝您有用的答案。在我提出這個問題之前,我做了所有這些,並且我閱讀了所有NER,Parser,Segmenter等的所有常見問題解答。我嘗試了你在例子中提到的訓練數據,它對我很好,但問題是當你需要同一個人的全名時,例如(ذهبسعدالدينعليالىالجامعة),因爲(سعدالدينعلي)是一個人的名字。結果(根據(NP(D)(NP(D))), –
I看到文章(http://stackoverflow.com/questions/6505569/extracting-arabic-proper-names-from-a-text-using-stanford-parser)我試了相同的,但它沒有奏效。我需要的是:阿拉伯語中的化合物名稱是相互聯合的,例如(عبدالله),(محمدبنراشد)。另一個問題:在英語語法解析器中,有一些叫做(GrammaticalStructureFactory gsf = tlp.grammaticalStructureFactory();)在阿拉伯語中是一樣的。非常感謝您的幫助。我真的很感激。 –