1
我正在做一個網頁抓取項目this website。如何從網站獲取所有有效的網址?
在這一刻,我想要做的就是從這樣的一個URL刮藝術家名稱:https://lsdb.eu/artists/view/225/
由於沒有設置爲編號225的藝術家,存在的頁面。但是,https://lsdb.eu/artists/view/226/
不存在,但是存在數量高於226的頁面。
有什麼辦法可以刮掉網站,看看哪個https://lsdb.eu/artists/view/xxx/
網址是有效的?
你可以在'try'裏面包裹刮擦,這樣它就可以跳過壞的URL並進入下一個URL。或者'httr :: GET'允許訪問站點響應,所以'GET(「https://lsdb.eu/artists/view/225/」)$ status_code'將返回200(好),而'GET(「 https://lsdb.eu/artists/view/226/「)$ status_code'將返回404(壞) – roarkz