2014-02-21 36 views
2

我正試圖在給定的文本中查找命名實體。爲此,我嘗試使用DBPedia聚光燈服務。DBPedia-Spotlight中lucene索引文件的用途是什麼?

  1. 我能夠得到迴應。但是,DBPedia數據集是有限的,所以我嘗試用我自己的字典替換他們的spotter.dict文件。我的字典每行包含實體:

    鄧德### PERSON

    奧巴馬### PERSON

    ....等

  2. 然後我分析此文件,並建立一個ExactDictionaryChunker目的。

  3. 現在我能夠獲得實體及其類型(在修改dbpedia代碼之後)。

我的問題是:DBPedia聚光燈使用的是Lucene索引文件。我真的不明白他們使用這些文件的目的是什麼?

我們可以不使用索引文件嗎?索引文件的意義是什麼?

+0

看起來好像有一些關於如何在他們的[Github wiki]中使用Lucene的解釋(https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Lucene---Architecture) – femtoRgon

+0

感謝您的迴應..但在這裏他們根本沒有討論過有關lucene索引。這太抽象了。 –

回答

0

Lucene在早期的DBpedia Spotlight實現中用於存儲KB中每個實體的模型。這個模型被用來給我們提供上下文(從輸入文本中提取)和實體之間的相關性度量。更具體地說,每個實體由矢量{t1: score1, t2: score2, ... }表示。在運行時,我們將輸入文本建模爲相同維度的矢量,並測量輸入矢量和實體矢量之間的餘弦。在你的情況下,你將不得不爲Sachin Tendulkar添加一個向量(向Lucene索引添加一個文檔),以防它尚未到達該空間。儘管如此,最新的實現已經從Lucene轉移到內部內存環境存儲。 https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)