2015-09-07 71 views
0

我是Solr索引的新手。我正在尋找各種方式來索引比GB更大的文件(可以比這更多)。我嘗試過Apache Tika來索引文件。如果大小不超過30MB,則效果很好。對於大於此值的文件,儘管將內存大小增加到了4096MB,但仍有內存異常(有些博客建議使用Apache Tika進行大文件索引以避免內存問題,但我還沒有嘗試過)。我想知道是否有更好的方法來索引大文件。我已閱讀過數據導入處理程序(DIH),但不確定如何將其與現有Solr設置集成。有誰知道如何去DIH。我花了幾天的時間一起整合,但似乎沒有工作。從安裝DIH直到處理一些示例文件將會有很大幫助,一步一步地進行。如果還有其他方法來索引大文件,請告知。大文件的索引索引內容(甚至大於GB)

我基本上是試圖在我的一個Web門戶中實現搜索功能,用戶可以從各種文件服務器訪問文件。他應該能夠檢查哪些文件具有他在搜索欄中鍵入的內容。我會每天運行一項工作來選擇更改/新建的文件並重新編制索引。

+0

你試過了什麼? –

+0

我下載了Tika,並嘗試索引一些PDF文件,word文檔等。它適用於文件高達30MB。但花費太多處理時間。 – Rahul

回答

0

Solr在二進制(PDF,Word)格式下使用Tika。所以,如果直接針對Tika失敗,它很可能不會在Solr中工作。我會做一個簡單的用例來顯示一個問題,並在Tika郵件列表中詢問。一旦Tika得到解決,您就可以看到該解決方案是否能夠適合Solr本身。

您可能還想看看一個專用客戶端,該客戶端在具有超大內存的單獨機器上運行,並以作業隊列方式將這些文件轉換爲Tika提取的版本。