2010-11-04 81 views
5

我使用ExtractingRequestHandler使用Solr爲PDF編制索引。我想在文檔中顯示頁碼和命中,例如「在第2,3和5頁的bar.pdf中找到術語foo。」使用Solr編制頁碼索引PDF

是否有可能在這樣的查詢結果中包含頁碼?

回答

5

這需要一些開發工作,但您可以通過將每個文檔的每個頁面索引爲單獨的Solr文檔來實現此目的,然後使用field collapsing爲每個文檔分組不同的頁面點擊。

請注意,您需要每晚進行此操作,但在當前發佈的任何Solr版本中都未實現字段合攏。

另請注意:字段崩潰在版本Solr 3.3中實施。在下一個大版本中預計會有更多更新(Solr 4.0

+1

在這一刻,這個問題可能有新的解決方案? – zygimantus 2017-01-19 11:52:03

+1

@zygimantus我已經在JIRA簽出了幾張10歲的SOLR門票。說沒有,這很安全。 建議的方式如本答案中所述。其他方式也是可能的,但需要更長時間/更難,因爲您必須自定義Solr。 – Howie 2018-01-30 11:36:14