2016-01-26 22 views
0

我試圖指數〜100萬的xml文件到Solr 5.有幾個方法我能想到的:索引大量的XML文件來SOLR 5

  1. 轉儲所有的XML文件成一個目錄,然後使用post.jar
  2. 在我看來,這些數據導入處理程序也可以被用來遞歸導入XML文件

是否有其他方法嗎?

+0

你可以用你喜歡的語言製作你自己的索引器,它可以解析xml文件,進行任何需要的修改,並使用solr客戶端庫將它們發送到solr服務器。 –

+0

查看此博文http://www.andornot.com/blog/post/Sample-Solr-DataImportHandler-for-XML-Files.aspx – cheffe

回答

0

你的問題是如何用solr索引一百萬個xml文件。

即使對於recursiv文件夾結構,您也可以使用bin/post工具。

如果這有足夠的功能:沒問題。如果你需要更多的特殊功能建立你自己的索引器,特別是solrj,這很容易。

如果您有足夠的主內存,您可以使用DataImportHandlerFileListEntityProcessor。 'FileListEntityProcessor'首先收集所有文件,然後運行真正的索引。所以在你的情況下,第一步將在你的主內存中放置一百萬個「文件」實例。