我在Solr中創建了一個自定義Tokenizer,用於查找命名實體。我希望能夠使用這些信息來填充lucene/solr文檔中的單獨字段。Solr:從Tokenizer填充單獨的字段
作爲一個例子,我想填充一個名爲「locations」的多值字段,其中包含從文本中提取的所有位置名稱。要提取位置,首先將文本標記爲單詞,並確定哪些標記是位置。在這個過程之後,我想爲標記器發出標記,但也要填充從文本中提取的所有位置名稱的「位置」字段。
根據我所做的研究,無法從Tokenizer或TokenizerFactory訪問SolrDocument對象,因此無法從此處填充字段。
我到目前爲止提出的解決方案是創建一個自定義的UpdateRequestProcessorFactory來處理文本並提取字段,然後Tokenizer處理文本AGAIN以獲取令牌。我想找到一種方法來完成這項工作,並只處理一次文本。