2015-04-01 24 views
1

是否有可能(有沒有任何工具)抓取頁面(不是內容,只是url),這是在登錄後面?我們希望創建一個新網站,並且需要對舊網站上的每個網頁進行索引,以便捕獲所有內容,內容類型,將所有網址映射到新網站等等。我有登錄信息,我是不想將這添加到谷歌或任何東西。如何在登錄後抓取/索引頁面?

尖叫青蛙不會這樣做。 而且我不能涉及當前網站的開發人員 - 因此在服務器上放置腳本也無法工作。任何其他方式來做到這一點?

回答

0

是的你可以,集成你的爬蟲與「SELENIUM」。提供登錄憑據,你可以完成你的工作。 幾個不錯的鏈接,可以幫助你: -

How to use Selenium with Python?

http://www.quora.com/Is-it-possible-to-write-a-Python-script-for-opening-a-browser-and-logging-into-a-website-How-could-you-do-it

https://selenium-python.readthedocs.org/en/latest/getting-started.html

這可能需要時間和研究,但肯定會做,照顧註銷頁面,而爬行。

相關問題