我是nutch和solr的新手。相對於Nutch來說Solr相對來說比Solr更新穎:)Nutch在飛行中查詢
我一直在使用nutch過去兩週,我想知道如果我可以在飛行中(在它完成之前)查詢或搜索我的nutch爬行。我這樣問是因爲我所抓取的網站非常龐大,需要大約3-4天才能完成抓取。我想分析一些快速結果,而nutch爬蟲仍在抓取網址。有人建議我說Solr會使它成爲可能。
爲此我遵循http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步驟。我看到只有注入的URL會顯示在Solr搜索中。我知道我做了一些非常愚蠢的事情,抓取過程從未發生過,我覺得我在這裏錯過了一些信息。但我做了鏈接中提到的所有步驟。我認爲在這個過程中的某個地方應該有一個爬行發生,而且錯過了。
只是想看看有人能幫我指出這一點,以及我在這個過程中出錯的地方。原諒我的愚蠢,並感謝你的耐心。
乾杯, 阿比