在hadoop上運行solr索引

我有大量的數據需要編入索引，並且花了超過10個小時才完成工作。有沒有辦法在hadoop上做到這一點？任何人都曾經這樣做過？非常感謝！在hadoop上運行solr索引

2012-07-23 trillions

類似的（你把你的數據到Hadoop的後把它歸結爲同樣的問題）：http://stackoverflow.com/questions/11548357/searching-over-documents-stored-in-hadoop-哪些工具可以使用 – 2012-07-23 23:57:45

您還沒有解釋10hr在哪裏？是否需要提取數據？或者它只是爲了索引數據。

如果您需要很長時間提取，那麼您可以使用hadoop。 Solr具有稱爲批量插入的功能。因此，在您的地圖功能中，您可以累積1000個記錄並一次提交索引以解決大量的記錄。這將優化您的性能。

您的數據是多大？

您可以在map/reduce作業的reduce函數中收集大量記錄。您必須在地圖中生成適當的密鑰，以便大量記錄進入單個縮減功能。在您的自定義reduce類中，根據您的hadoop版本初始化setup/configure方法中的solr對象，然後在清理方法中關閉它。您將不得不創建一個文檔集合對象（在solrNet或solrj中）並將它們全部提交到一個單發。

如果您使用的是hadoop，還有其他選項katta。你也可以查看它。

來源

2012-07-24 16:46:47

非常感謝，Animesh！時間主要是索引數據，因爲在運行java程序之前我已經處理了數據以通過http調用solr。這個程序和solr服務器在同一臺機器上運行。也許我應該檢查批量插入？... – trillions 2012-07-25 00:46:15

是的，我已經這樣做過，批量插入將真的減少很多時間。 – 2012-07-25 02:03:05

非常感謝，Animesh！我擁有的數據超過了2000萬。只是爲了確認，對於批量插入，你的意思是「繼續添加文檔」，一旦命中1000條記錄，然後做一個提交，對吧？ – trillions 2012-07-25 09:11:14

你可以在你的hadoop集羣上編寫一個map reduce作業，它只需要記錄每條記錄並將它發送到索引上的solr進行索引。 Afaik solr目前沒有對機器集羣進行索引，因此如果您想要將索引也分佈在多個節點上，則需要查看彈性搜索。

來源

2012-07-24 04:50:48 FUD

有一個SOLR hadoop輸出格式，它在每個reducer中創建一個新的索引 - 所以你根據你想要的索引分散你的密鑰，然後在事實之後將hdfs文件複製到你的SOLR實例中。

http://www.datasalt.com/2011/10/front-end-view-generation-with-hadoop/

來源

2013-03-05 15:54:40 jayunit100

在hadoop上運行solr索引

回答

相關問題