正則表達式不包括URL

我與一家電子郵件公司合作，他們有一個功能，他們蜘蛛您的網站，以提供自定義內容。我有能力讓蜘蛛根據我提供的正則表達式模式忽略網址。正則表達式不包括URL

對於該系統，模式以「/」開頭和結尾。

我還以爲下面的模式會工作，因爲它沒有尾部斜槓，但沒有運氣。

任何想法？

/http:\/\/www\.website\.com\/[0-9][0-9][0-9][0-9]\/[0-9][0-9]/

2011-10-24 ok1ha

你的正則表達式匹配的URL的部分，所以你需要告訴它不要讓一個斜槓遵循它：

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9](?!\/)/

如果你想也避免了像其他http://www.website.com/2011/100部分匹配，再追加word boundary可能幫助：

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9]\b(?!\/)/

2011-10-24 14:21:17

它依賴於正則表達式引擎，但是你可能既使用$（如果該URL預先標記化）或匹配空格和分隔符

2011-10-24 14:20:57 Ofir

回答