2011-07-07 60 views
0

這是一個Solr新手問題 - 但對於我理解Solr是如何工作以及它是否適合我的項目非常重要。參考原始文件保存?

我想索引二進制文檔,即MS-Office文檔和PDF。我知道Solr可以索引這些文檔的內容,並且我可以構建查詢來獲取作爲結果指定的值和字段。我的問題是PDF(或任何文檔)掃描後會發生什麼?它是真正存儲還是完全丟棄,並且我可以獲取參考文件/鏈接返回到原始文檔,包括:從solr返回的位置(路徑),還是必須在提交文檔時傳遞此信息?

有人可以幫我理解這個嗎?

回答

0

你可以索引任何你想要的東西,SOLR將允許你搜索它並返回結果。例如,我們使用Nutch來索引我們的網站,並且我們有自制的Groovy腳本,它們將數據從數據庫中提取出來並創建一個SOLR索引。

重要的是你如何構建你的索引。如果您提供URL或其他資源定位器以便能夠鏈接到您的文件,那麼您可以讓SOLR在結果負載中返回該信息。