2014-12-04 59 views
-1

他的人我想用Nutch的1.9與java7抓取https網站抓取問題HTTPS使用Nutch

seed.txt

https://site.com 
在正則表達式,urlfilter.txt

+^https://([a-z0-9]*\.)*site.com/ 

但當使用bin/crawl ...運行crawlig進程時,我得到了一個javax.net.ssl.SSLProtocolException:握手警報:無法識別的名稱

回答

2

我得到了具有默認證書的網站的解決方案,我希望這可以幫助其他人會遇到這個問題。

一些在這個論壇上的帖子提到了有關添加參數-Djsse.enableSNIExtension=false 但在哪裏放? 我編輯使用納米的nucth文件,並在NUTCH_OPTS 在Nutch的1.9它是行195現在是

NUTCH_OPTS=($NUTCH_OPTS -Dhadoop.log.dir="$NUTCH_LOG_DIR" -Djsse.enableSNIExtension=false) 

後爬行成功了沒有打破

加入這個說法