2012-10-17 62 views
0

首先想說的是我有Python和一些網絡庫的經驗,如機械化,美麗的湯,urllib2。關於從網頁獲取信息的創建應用程序的建議

這個想法是創建一個應用程序,它將從網頁中獲取信息,我目前在webbrowser中查找。而不是存儲它。

例如: 我手動進入網站,創建一個用戶。 比運行我的應用程序,這將從網頁抓取一些細節,我目前正在看。如用戶名,名字,姓氏等。

問題: 我不知道如何讓程序運行在我的網頁瀏覽器之上。我不能簡單地使用scipt登錄此網頁,然後使用美麗湯做其餘的事情,因爲它對網絡爬蟲和網絡機器人具有很好的保護。

需要一些地方開始。所以主要問題是可以獲取當前在我的Web瀏覽器上的信息嗎?如果是的話,希望聽到關於如何讓我的程序看瀏覽器的一些建議?

請隨意填寫問我,如果你不知道我在問什麼,或者你有一些建議,我可以使用一些圖書館。

+0

我建議看看像[PhantomJS](http://phantomjs.org/),或者如果你想要一個可視化工具,你可以看看[Selenium](http://seleniumhq.org/)或[假](http://fakeapp.com/)。 –

+0

PhantomJS看起來很不錯,請看看它,謝謝 – Vor

+0

PhantomJS的問題是我認爲你不能手動做很多事情,因爲它是無頭的。當然,在那裏做腳本可能會更容易。 – Dougal

回答

0

最簡單的做法可能是將當前頁面的HTML內容保存到一個文件中(使用文件 - >保存頁面或其他任何東西在瀏覽器中),然後運行Beautiful Soup/lxml.html/whatever在那個文件上。

你可能也可以得到Selenium做你想做的,雖然我從來沒有使用過它,我不知道。

+0

我也在想這個,但是想創建一個可以自動完成的應用程序。你知道是否有可能從瀏覽器緩存中獲取當前網頁? – Vor

+0

關於Selenium,是否可以手動執行登錄部分並調用硒並執行其他操作? – Vor

相關問題