我與一家電子郵件公司合作,他們有一個功能,他們蜘蛛您的網站,以提供自定義內容。我有能力讓蜘蛛根據我提供的正則表達式模式忽略網址。正則表達式不包括URL
對於該系統,模式以「/」開頭和結尾。
我想要做的就是忽略http://www.website.com/2011/10但允許http://www.website.com/2011/10/title-of-page.html
我還以爲下面的模式會工作,因爲它沒有尾部斜槓,但沒有運氣。
任何想法?
/http:\/\/www\.website\.com\/[0-9][0-9][0-9][0-9]\/[0-9][0-9]/