DBPedia-Spotlight中lucene索引文件的用途是什麼？

我正試圖在給定的文本中查找命名實體。爲此，我嘗試使用DBPedia聚光燈服務。DBPedia-Spotlight中lucene索引文件的用途是什麼？

我能夠得到迴應。但是，DBPedia數據集是有限的，所以我嘗試用我自己的字典替換他們的spotter.dict文件。我的字典每行包含實體：

鄧德### PERSON

奧巴馬### PERSON

....等
然後我分析此文件，並建立一個ExactDictionaryChunker目的。
現在我能夠獲得實體及其類型（在修改dbpedia代碼之後）。

我的問題是：DBPedia聚光燈使用的是Lucene索引文件。我真的不明白他們使用這些文件的目的是什麼？

我們可以不使用索引文件嗎？索引文件的意義是什麼？

2014-02-21 Sreedhar GS

看起來好像有一些關於如何在他們的[Github wiki]中使用Lucene的解釋（https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Lucene---Architecture） – femtoRgon

感謝您的迴應..但在這裏他們根本沒有討論過有關lucene索引。這太抽象了。 –

Lucene在早期的DBpedia Spotlight實現中用於存儲KB中每個實體的模型。這個模型被用來給我們提供上下文（從輸入文本中提取）和實體之間的相關性度量。更具體地說，每個實體由矢量{t1: score1, t2: score2, ... }表示。在運行時，我們將輸入文本建模爲相同維度的矢量，並測量輸入矢量和實體矢量之間的餘弦。在你的情況下，你將不得不爲Sachin Tendulkar添加一個向量（向Lucene索引添加一個文檔），以防它尚未到達該空間。儘管如此，最新的實現已經從Lucene轉移到內部內存環境存儲。 https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki/Internationalization-(DB-backed-core)

來源

2015-08-01 19:35:04

DBPedia-Spotlight中lucene索引文件的用途是什麼？

回答

相關問題