我想抓取/抓取(不知道哪一個是最好的翻譯)網站的網址。例如我希望從中獲取每一個網址: www.Site.com/posts.html
包含www.Site.com/2015-04-01/1
軟件抓取/抓取網站的網址
,所以我將鍵入軟件www.Site.com
並設置深度2
和所需的URL文本www.Site.com/2015-04-01/1
所以..軟件應該:
1)進入:www.Site.com/posts.html
2)找到匹配的網址:比方說,它發現:
一)www.Site.com/2015-04-01/1/Working-Stuff.html
B)www.Site.com/2015-04-01/1/New-stuff.html
C)www.Site.com/2015-04-01/1/News.html
而現在它進入第一個匹配的url(a)和尋找它包含www.Site.com/2015-04-01/1
另一個網址。
因此,例如,它應該是這樣的:
Main site: `www.Site.com/posts.html`
1)www.Site.com/2015-04-01/1/Working-Stuff.html
1a) www.Site.com/2015-04-01/1/Break.htm
1b) www.Site.com/2015-04-01/1/How-to.htm
1c) www.Site.com/2015-04-01/1/Lets-say.htm
1d) www.Site.com/2015-04-01/1/Gamer-life.htm
2) www.Site.com/2015-04-01/1/New-stuff.html
2a) www.Site.com/2015-04-01/1/My-Story-about.htm
3) www.Site.com/2015-04-01/1/News.html
3a) www.Site.com/2015-04-01/1/Go-to-hell.htm
3b) www.Site.com/2015-04-01/1/Leave.htm
我當然不需要是preffix分組1),2),2A)等。我想要抓住唯一的URL。
我用: A1網站刮板 - 但是當我嘗試從......html
刮它減少.html
一部分,並沒有給我完整的URL列表:/
對不起,壞的問題。請閱讀:http://stackoverflow.com/help/how-to-ask和此:http://stackoverflow.com/help/on-topic –