2013-07-22 18 views
1

我想爬Techcrunch的的網頁上傳的1月1日的2013.The網站遵循模式如何在nutch中設置正則表達式來過濾techcrunch的URL?

   http://www.techcrunch.com/YYYY/MM/DD 

所以我的問題是如何建立在Nutch的urlfilter正則表達式,這樣我可以只抓取網頁後我想要的。

   +^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)* 

回答

0

我不知道的Nutch但你嘗試:

+^http://www.techcrunch.com/2013/[0-9]{2}/[0-9]{2}.*$ 

+^http://www.techcrunch.com/2013/[0-9]+/[0-9]+.*$ 
0

以下表達式將匹配您需要的網址:

沒有組

http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+ 

隨着羣體

http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+) 

我沒有把錨(^$),但你可以把他們,如果你需要他們的過濾。

試試看看它們是否有效。

我不知道該怎麼Nutch的作品,但一對夫婦的關於您的正則表達式可能適用的建議:在正規表達式的/應該逃脫; dd部件應該是\d\d,因此它們匹配兩位數字。

關於設置正則表達式,請查看this answer以查看它是否對您有所幫助。