2015-05-05 26 views
0

我是nutch的新手,並且使用nutch 1.9。現在我正在一個樣本網站(shaadi.com)上做一些POC。我有幾個問題,有人可以幫我解決這個問題嗎?Nutch的可能性

  1. 我不能訪問要求登錄認證(形式的基於),雖然我在設置HttpClient的-auth.xml,的nutch-site.xml中和所有的配置的網址。

  2. 我知道nutch只提取我們網站的全部內容。但有可能從網站頁面使用nutch獲取只有一個信息,如名字,地址等? (我認爲它更像是刮..這是什麼蟒scrapy一樣)

在此先感謝。

回答

0

您將需要使用插件來提取特定數據&索引時將數據添加到nutch文檔。 這個插件可以用來提取數據 www.atlantbh.com/precise-data-extraction-with-apache-nutch/

+0

謝謝Ganapat。我提到了所提到的url,並且能夠解決我的問題。現在我的關注完全是基於表單的身份驗證。我遵循了他們在nutch-827 jira issue中提到的所有步驟,並且提到了@jayesh Bhoyar完成的終身程序員blogspot。但仍然無法實現基於表單的身份驗證。你對這個有什麼想法嗎?提前致謝.. – vignesh