2016-04-20 136 views
-1

我想抓取/抓取(不知道哪一個是最好的翻譯)網站的網址。例如我希望從中獲取每一個網址: www.Site.com/posts.html包含www.Site.com/2015-04-01/1軟件抓取/抓取網站的網址

,所以我將鍵入軟件www.Site.com並設置深度2和所需的URL文本www.Site.com/2015-04-01/1

所以..軟件應該:

1)進入:www.Site.com/posts.html

2)找到匹配的網址:比方說,它發現:

一)www.Site.com/2015-04-01/1/Working-Stuff.html

B)www.Site.com/2015-04-01/1/New-stuff.html

C)www.Site.com/2015-04-01/1/News.html

而現在它進入第一個匹配的url(a)和尋找它包含www.Site.com/2015-04-01/1另一個網址。

因此,例如,它應該是這樣的:

Main site: `www.Site.com/posts.html` 


    1)www.Site.com/2015-04-01/1/Working-Stuff.html 
     1a) www.Site.com/2015-04-01/1/Break.htm 
     1b) www.Site.com/2015-04-01/1/How-to.htm 
     1c) www.Site.com/2015-04-01/1/Lets-say.htm 
     1d) www.Site.com/2015-04-01/1/Gamer-life.htm 

    2) www.Site.com/2015-04-01/1/New-stuff.html 
     2a) www.Site.com/2015-04-01/1/My-Story-about.htm 

    3) www.Site.com/2015-04-01/1/News.html 
     3a) www.Site.com/2015-04-01/1/Go-to-hell.htm 
     3b) www.Site.com/2015-04-01/1/Leave.htm 

我當然不需要是preffix分組1),2),2A)等。我想要抓住唯一的URL。


我用: A1網站刮板 - 但是當我嘗試從......html刮它減少.html一部分,並沒有給我完整的URL列表:/

+0

對不起,壞的問題。請閱讀:http://stackoverflow.com/help/how-to-ask和此:http://stackoverflow.com/help/on-topic –

回答

0

[編輯我以前稍微簡單的答案 ]

屏幕抓取是從網頁中刪除數據的過程。 R包rvest非常擅長屏幕抓取。

網絡爬行是遍歷網頁從一個頁面移動到另一個頁面的過程。 R包rselenium非常適合模仿用戶在頁面之間的移動,但只有當您知道網站的結構時纔是如此。

您聽起來像是想從一個頁面到另一個頁面進行抓取,從頭部頁面開始並向前移動。我認爲您可以使用rvestrselenium軟件包的組合對代碼進行編碼。在這兩者之間,您可以自定義並採取任何特定的未知路線。