2016-09-28 83 views
2

的爬行任務作業狀態在爬行週期,我們有很多的任務/相位像注入,生成,提取,分析,updatedb的,invertlinks,去重指數工作。 現在我想知道是否有任何方法可以通過除了引用hadoop.log文件以外的任何方式獲取爬網任務(無論是運行還是失敗)的狀態? 更準確地說,我想知道我是否可以跟蹤生成/讀取/解析階段的狀態?任何幫助,將不勝感激。如何獲得在Nutch的

回答

3

您應該始終以僞或全分佈模式運行Nutch,這樣您就可以使用Hadoop UI來跟蹤爬網進度,查看每個步驟的日誌,訪問計數器(非常有用!)。

+0

我可以以完全分佈式模式啓動一個nutch服務器(在hadoop之上)並使用nutch REST api來執行相同的操作嗎? – Sachin

+0

不知道,我從來沒有使用過REST API。如果沒有,那麼這是一個嚴重的限制,Nutch可以在本地模式下運行,但它分佈時真的發光 –

+0

我在網上搜索,沒有發現任何有用的信息。我想將nutch作爲分佈式服務展示。 – Sachin