如何在nutch中設置正則表達式來過濾techcrunch的URL？

我想爬Techcrunch的的網頁上傳的1月1日的2013.The網站遵循模式如何在nutch中設置正則表達式來過濾techcrunch的URL？

   http://www.techcrunch.com/YYYY/MM/DD

所以我的問題是如何建立在Nutch的urlfilter正則表達式，這樣我可以只抓取網頁後我想要的。

   +^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*

2013-07-22 Rahul

我不知道的Nutch但你嘗試：

+^http://www.techcrunch.com/2013/[0-9]{2}/[0-9]{2}.*$

或

+^http://www.techcrunch.com/2013/[0-9]+/[0-9]+.*$

2013-07-22 21:37:59

以下表達式將匹配您需要的網址：

沒有組

http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+

隨着羣體

http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+)

我沒有把錨（^$），但你可以把他們，如果你需要他們的過濾。

試試看看它們是否有效。

我不知道該怎麼Nutch的作品，但一對夫婦的關於您的正則表達式可能適用的建議：在正規表達式的/應該逃脫; dd部件應該是\d\d，因此它們匹配兩位數字。

關於設置正則表達式，請查看this answer以查看它是否對您有所幫助。

2013-07-22 22:57:01 Racso

回答