我想爬Techcrunch的的網頁上傳的1月1日的2013.The網站遵循模式如何在nutch中設置正則表達式來過濾techcrunch的URL?
http://www.techcrunch.com/YYYY/MM/DD
所以我的問題是如何建立在Nutch的urlfilter正則表達式,這樣我可以只抓取網頁後我想要的。
+^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*
我想爬Techcrunch的的網頁上傳的1月1日的2013.The網站遵循模式如何在nutch中設置正則表達式來過濾techcrunch的URL?
http://www.techcrunch.com/YYYY/MM/DD
所以我的問題是如何建立在Nutch的urlfilter正則表達式,這樣我可以只抓取網頁後我想要的。
+^http://www.techcrunch.com/2013/dd/dd/([a-z0-9\-A-Z]*\/)*
我不知道的Nutch但你嘗試:
+^http://www.techcrunch.com/2013/[0-9]{2}/[0-9]{2}.*$
或
+^http://www.techcrunch.com/2013/[0-9]+/[0-9]+.*$
以下表達式將匹配您需要的網址:
沒有組
http:\/\/www.techcrunch.com\/\d{4}\/\d{2}\/\d{2}\/\w+
隨着羣體
http:\/\/www.techcrunch.com\/(\d{4})\/(\d{2})\/(\d{2})\/(\w+)
我沒有把錨(^$
),但你可以把他們,如果你需要他們的過濾。
試試看看它們是否有效。
我不知道該怎麼Nutch的作品,但一對夫婦的關於您的正則表達式可能適用的建議:在正規表達式的/
應該逃脫; dd
部件應該是\d\d
,因此它們匹配兩位數字。
關於設置正則表達式,請查看this answer以查看它是否對您有所幫助。