2011-02-09 44 views
0

我是nutch和solr的新手。相對於Nutch來說Solr相對來說比Solr更新穎:)Nutch在飛行中查詢

我一直在使用nutch過去兩週,我想知道如果我可以在飛行中(在它完成之前)查詢或搜索我的nutch爬行。我這樣問是因爲我所抓取的網站非常龐大,需要大約3-4天才能完成抓取。我想分析一些快速結果,而nutch爬蟲仍在抓取網址。有人建議我說Solr會使它成爲可能。

爲此我遵循http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步驟。我看到只有注入的URL會顯示在Solr搜索中。我知道我做了一些非常愚蠢的事情,抓取過程從未發生過,我覺得我在這裏錯過了一些信息。但我做了鏈接中提到的所有步驟。我認爲在這個過程中的某個地方應該有一個爬行發生,而且錯過了。

只是想看看有人能幫我指出這一點,以及我在這個過程中出錯的地方。原諒我的愚蠢,並感謝你的耐心。

乾杯, 阿比

回答

0

這是不可能的。 什麼你可以做的,雖然是塊中的一個較小的數字抓取週期的URL,這樣它將如果您使用的是一站式命令craw升它應該是相同的更經常發佈結果蒙山此命令
nutch generate crawl/crawldb crawl/segments -topN <the limit>

我通常有一個24小時chunking計劃。