0
我是nutch的新手,並且使用nutch 1.9。現在我正在一個樣本網站(shaadi.com)上做一些POC。我有幾個問題,有人可以幫我解決這個問題嗎?Nutch的可能性
我不能訪問要求登錄認證(形式的基於),雖然我在設置HttpClient的-auth.xml,的nutch-site.xml中和所有的配置的網址。
我知道nutch只提取我們網站的全部內容。但有可能從網站頁面使用nutch獲取只有一個信息,如名字,地址等? (我認爲它更像是刮..這是什麼蟒scrapy一樣)
在此先感謝。
謝謝Ganapat。我提到了所提到的url,並且能夠解決我的問題。現在我的關注完全是基於表單的身份驗證。我遵循了他們在nutch-827 jira issue中提到的所有步驟,並且提到了@jayesh Bhoyar完成的終身程序員blogspot。但仍然無法實現基於表單的身份驗證。你對這個有什麼想法嗎?提前致謝.. – vignesh