我寫使用Scrapy,結果我得到這樣一組URL的網絡爬蟲外檢查字符串表達式:虛擬的URL] * http://matrix.com/en/Zion定期爲一組
http://matrix.com/en/Machine_World
http://matrix.com/en/Matrix:Banner_guidelines
http://matrix.com/en/File:Link_Banner.jpg
http://matrix.com/wiki/en/index.php *
在scrapy中的規則中,我想添加一個正則表達式,它允許只有類型爲「http://matrix.com/en/Machine_World」或「http://matrix.com/en/Zion」 的網址,即包含集合之外任何內容的網址「http://matrix.com/en/ < [a-zA-Z,_]> 「一定不能被允許。
約束:
- 後的字符串 「/ EN /」 可以是任何長度。所以我不能要求它只查看前10或20個字符。例如,當我使用正則表達式:[a-zA-Z,] {1,20}或者[a-zA-Z,] {1,}它仍然匹配像http://matrix.com/en/Matrix:Banner_guidelines那樣的URL,它會找到「http://matrix.com/en/Matrix」部分該網址成功匹配。我希望它查看在「/ en /」之後直到URL結尾的字符串,然後應用此規則。 不幸的是我不能提取那個字符串n寫一個任何類型的子程序。它只能使用正則表達式來完成!
'http://matrix.com/en/ [a-zA-Z,_] + $'? – NightShadeQueen
'$'匹配「行尾」 – NightShadeQueen
給出的示例的預期輸出是什麼? –