2015-10-14 54 views
1

我能夠使用Solr爲文檔建立索引(Word,PDF)。是否有可能獲得原始文件?我假設沒有,因爲Solr僅存儲索引 - 但是如果我錯了,你能糾正我嗎?如何從Solr下載索引文件?

如果否 - 通常解決的方法(我的意思是檢索原始文檔?)將它們存儲在單獨的存儲中?

回答

1

@Alec 你的理解是正確的。 您無法取回原始文件。因此,您可以選擇單獨存儲原始文檔,在主數據存儲區中生成唯一ID,並將該唯一ID鏈接到文檔的SOLR導出,以便將搜索結果鏈接回去。實際上,SOLR是爲搜索速度而設計的,並不像RDBMS那樣友好。 因此,在我的項目中,我使用這種策略來維護替代數據存儲庫,作爲所有應用程序數據(不僅僅是文檔)的權威來源。

爲了說明文件處理的內幕,我建議你看看Solr Wiki https://wiki.apache.org/solr/ExtractingRequestHandler的例子。

更多更高版本的記錄在這裏 https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika

文檔說Solr的ExtractingRequestHandler使用提卡允許用戶二進制文件上傳到Solr並有Solr的從中提取文本,然後建立索引。

這意味着只有提取的文本實際上存儲在SOLR中。原始的二進制內容對於搜索/索引目的來說並不真正用於SOLR(並且可能被丟棄,儘管我沒有找到確切的文本表明它們丟棄了由此提取的文檔的原始二進制內容)。