2011-10-24 151 views
1

我與一家電子郵件公司合作,他們有一個功能,他們蜘蛛您的網站,以提供自定義內容。我有能力讓蜘蛛根據我提供的正則表達式模式忽略網址。正則表達式不包括URL

對於該系統,模式以「/」開頭和結尾。

我想要做的就是忽略http://www.website.com/2011/10但允許http://www.website.com/2011/10/title-of-page.html

我還以爲下面的模式會工作,因爲它沒有尾部斜槓,但沒有運氣。

任何想法?

/http:\/\/www\.website\.com\/[0-9][0-9][0-9][0-9]\/[0-9][0-9]/ 

回答

1

你的正則表達式匹配的URL的部分,所以你需要告訴它不要讓一個斜槓遵循它:

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9](?!\/)/ 

如果你想也避免了像其他http://www.website.com/2011/100部分匹配,再追加word boundary可能幫助:

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9]\b(?!\/)/ 
1

它依賴於正則表達式引擎,但是你可能既使用$(如果該URL預先標記化)或匹配空格和分隔符