2012-08-16 23 views
0

我試圖從solr中的搜索結果中找到頁碼。我發現將每個頁面索引爲一個獨立的solr文檔都可以工作。但我似乎無法找到從PDF文件索引單個頁面的方法。如何將pdfdocument的每個頁面索引爲獨立的Solr文檔

有沒有人找到一種方法索引文件的單頁索爾?

+0

在這裏看到:http://find.searchhub.org/document/2d5774edaf7df967#584a8c3c378ba4c – 2012-08-16 12:17:29

回答

1

你可以使用任何的庫,例如pdfbox爲了分別提取每一頁的文本並提交不同的文件到Solr