2013-04-05 55 views
0

我想索引Solr中的文件。 我已經用PHP做了一個「輸出腳本」,但是我的項目負責人給了我顯示找到的文本的頁碼的任務。因此: - 我正在尋找單詞「Foo」。 - Solr返回結果以及突出顯示的文本。 - 現在我想知道這個突出顯示的文本是在哪個頁面上找到的。Solr文件按頁索引地圖內容

這些文件是* .pdf文件。

我想過的一個解決方案是將PDF文件的文本導入不同的字段?或者,也許在這個名爲「內容」的多值字段中。

也許是這樣的:

Json: 
    content: 
     1: "page one text", 
     2: "page two text" 

等等?

這可能嗎?或者有更好的方法來查找這些信息嗎?謝謝你的幫助! :-)

+0

Hi Cyruxx - 歡迎來到StackOverflow。您可能希望發佈已獲得的PHP代碼,這可以幫助人們建議將更改放在哪裏等! – 2013-04-05 15:59:20

+1

你好尼爾,這只是一個Solr的東西,而不是PHP :) – Cyruxx 2013-04-08 07:43:00

回答

0

您需要爲每個PDF文件的每個頁面創建一個單獨的Solr文檔。如果您只想爲每個文件返回一個結果,則可以使用FieldCollapsing對來自同一PDF文件的所有結果進行分組。

+0

你好,但我使用ExtractorHandler這個,所以這怎麼可能?順便說一下,感謝您的解決方案。 :) – Cyruxx 2013-04-08 07:46:06