Q

如何在登錄後抓取/索引頁面？

2015-04-01 24 views 1 likes

1

是否有可能（有沒有任何工具）抓取頁面（不是內容，只是url），這是在登錄後面？我們希望創建一個新網站，並且需要對舊網站上的每個網頁進行索引，以便捕獲所有內容，內容類型，將所有網址映射到新網站等等。我有登錄信息，我是不想將這添加到谷歌或任何東西。如何在登錄後抓取/索引頁面？

尖叫青蛙不會這樣做。而且我不能涉及當前網站的開發人員 - 因此在服務器上放置腳本也無法工作。任何其他方式來做到這一點？

2015-04-01 Anne Stahl

A

回答

0

是的你可以，集成你的爬蟲與「SELENIUM」。提供登錄憑據，你可以完成你的工作。幾個不錯的鏈接，可以幫助你： -

How to use Selenium with Python?

http://www.quora.com/Is-it-possible-to-write-a-Python-script-for-opening-a-browser-and-logging-into-a-website-How-could-you-do-it

https://selenium-python.readthedocs.org/en/latest/getting-started.html

這可能需要時間和研究，但肯定會做，照顧註銷頁面，而爬行。

2015-04-08 12:41:29

相關問題