2013-03-08 44 views
0

我在亞馬遜網絡服務上有一臺機器,我正在嘗試一些搜索功能。我在我的AWS機器上安裝了Nutch和Hbase。在亞馬遜網絡服務和本地集成Solr + Hadoop和Nutch + Hbase

我以爬蟲wikipedia.org爲例,抓取的數據存儲在Hbase的雲中。

我想安裝Solr並對其進行搜索。我沒有安裝我的系統作爲一個集羣,因爲我只是想做一些研究,即如何使用它等。

我的問題是Hadoop站在這個系統(我沒有安裝Hadoop呢)?安裝Hadoop和Solr我的本地計算機是合乎邏輯的。另外我的下一個挑戰將是如何與AWS電腦溝通我的本地計算機。

+0

查看CloudSearch(aws.amazon.com/cloudsearch/)以便能夠按比例進行搜索(比管理羣集簡單得多) – Guy 2013-03-09 18:51:49

+0

@Guy我的目的是爲了獲取有關此類事物的知識。 – kamaci 2013-03-10 13:10:15

+0

當您問到有關Hadoop和CloudSearch是否特別基於Hadoop時,我沒有詳細介紹。它的尺寸很好,但取決於您的要求。 – Guy 2013-03-11 12:47:13

回答

0

如果你安裝了Nutch,你已經有Hadoop,它處理你的抓取和解析。 您可以將Nutch生成的數據推送到Solr進行索引。

+0

我已安裝nutch並將網站抓取到Hbase。我還沒有Hadoop。我的主要問題是Hadoop Map Reduce Jobs如何與Solr索引/作業集成。是否有任何代碼示例或解釋? – kamaci 2013-03-09 16:30:55

+0

即使您安裝了原生Hadoop庫或您的O/S,Nutch也會使用它來抓取並解析其找到的內容,並將數據導入抓取目錄。將結果數據索引到Solr是一個相對較快的過程,它不使用或需要Hadoop。 – Claude 2013-03-14 03:12:36