我正試圖在給定的文本中查找命名實體。爲此,我嘗試使用DBPedia聚光燈服務。DBPedia-Spotlight中lucene索引文件的用途是什麼?
我能夠得到迴應。但是,DBPedia數據集是有限的,所以我嘗試用我自己的字典替換他們的spotter.dict文件。我的字典每行包含實體:
鄧德### PERSON
奧巴馬### PERSON
....等
然後我分析此文件,並建立一個
ExactDictionaryChunker
目的。現在我能夠獲得實體及其類型(在修改dbpedia代碼之後)。
我的問題是:DBPedia聚光燈使用的是Lucene索引文件。我真的不明白他們使用這些文件的目的是什麼?
我們可以不使用索引文件嗎?索引文件的意義是什麼?
看起來好像有一些關於如何在他們的[Github wiki]中使用Lucene的解釋(https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Lucene---Architecture) – femtoRgon
感謝您的迴應..但在這裏他們根本沒有討論過有關lucene索引。這太抽象了。 –