軟件抓取/抓取網站的網址

-1

我想抓取/抓取（不知道哪一個是最好的翻譯）網站的網址。例如我希望從中獲取每一個網址： www.Site.com/posts.html包含www.Site.com/2015-04-01/1軟件抓取/抓取網站的網址

，所以我將鍵入軟件www.Site.com並設置深度2和所需的URL文本www.Site.com/2015-04-01/1

所以..軟件應該：

1）進入：www.Site.com/posts.html

2）找到匹配的網址：比方說，它發現：

一）www.Site.com/2015-04-01/1/Working-Stuff.html

B）www.Site.com/2015-04-01/1/New-stuff.html

C）www.Site.com/2015-04-01/1/News.html

而現在它進入第一個匹配的url（a）和尋找它包含www.Site.com/2015-04-01/1另一個網址。

因此，例如，它應該是這樣的：

Main site: `www.Site.com/posts.html` 


    1)www.Site.com/2015-04-01/1/Working-Stuff.html 
     1a) www.Site.com/2015-04-01/1/Break.htm 
     1b) www.Site.com/2015-04-01/1/How-to.htm 
     1c) www.Site.com/2015-04-01/1/Lets-say.htm 
     1d) www.Site.com/2015-04-01/1/Gamer-life.htm 

    2) www.Site.com/2015-04-01/1/New-stuff.html 
     2a) www.Site.com/2015-04-01/1/My-Story-about.htm 

    3) www.Site.com/2015-04-01/1/News.html 
     3a) www.Site.com/2015-04-01/1/Go-to-hell.htm 
     3b) www.Site.com/2015-04-01/1/Leave.htm

我當然不需要是preffix分組1），2），2A）等。我想要抓住唯一的URL。

我用： A1網站刮板 - 但是當我嘗試從......html刮它減少.html一部分，並沒有給我完整的URL列表：/

來源

2016-04-20 audiophonic

對不起，壞的問題。請閱讀：http://stackoverflow.com/help/how-to-ask和此：http://stackoverflow.com/help/on-topic –

[編輯我以前稍微簡單的答案 ]

屏幕抓取是從網頁中刪除數據的過程。 R包rvest非常擅長屏幕抓取。

網絡爬行是遍歷網頁從一個頁面移動到另一個頁面的過程。 R包rselenium非常適合模仿用戶在頁面之間的移動，但只有當您知道網站的結構時纔是如此。

您聽起來像是想從一個頁面到另一個頁面進行抓取，從頭部頁面開始並向前移動。我認爲您可以使用rvest和rselenium軟件包的組合對代碼進行編碼。在這兩者之間，您可以自定義並採取任何特定的未知路線。

來源

2016-04-20 12:33:50

軟件抓取/抓取網站的網址

回答

相關問題