在亞馬遜網絡服務和本地集成Solr + Hadoop和Nutch + Hbase

我在亞馬遜網絡服務上有一臺機器，我正在嘗試一些搜索功能。我在我的AWS機器上安裝了Nutch和Hbase。在亞馬遜網絡服務和本地集成Solr + Hadoop和Nutch + Hbase

我以爬蟲wikipedia.org爲例，抓取的數據存儲在Hbase的雲中。

我想安裝Solr並對其進行搜索。我沒有安裝我的系統作爲一個集羣，因爲我只是想做一些研究，即如何使用它等。

我的問題是Hadoop站在這個系統（我沒有安裝Hadoop呢）？安裝Hadoop和Solr我的本地計算機是合乎邏輯的。另外我的下一個挑戰將是如何與AWS電腦溝通我的本地計算機。

2013-03-08 kamaci

查看CloudSearch（aws.amazon.com/cloudsearch/）以便能夠按比例進行搜索（比管理羣集簡單得多） – Guy 2013-03-09 18:51:49

@Guy我的目的是爲了獲取有關此類事物的知識。 – kamaci 2013-03-10 13:10:15

當您問到有關Hadoop和CloudSearch是否特別基於Hadoop時，我沒有詳細介紹。它的尺寸很好，但取決於您的要求。 – Guy 2013-03-11 12:47:13

如果你安裝了Nutch，你已經有Hadoop，它處理你的抓取和解析。您可以將Nutch生成的數據推送到Solr進行索引。

2013-03-09 07:33:52 Claude

我已安裝nutch並將網站抓取到Hbase。我還沒有Hadoop。我的主要問題是Hadoop Map Reduce Jobs如何與Solr索引/作業集成。是否有任何代碼示例或解釋？ – kamaci 2013-03-09 16:30:55

即使您安裝了原生Hadoop庫或您的O/S，Nutch也會使用它來抓取並解析其找到的內容，並將數據導入抓取目錄。將結果數據索引到Solr是一個相對較快的過程，它不使用或需要Hadoop。 – Claude 2013-03-14 03:12:36

回答