我是新來的屏幕抓取。當我使用代理服務器,當我跟蹤HTTP交易時,我得到了我的發佈數據。所以我的懷疑/問題在於, 1)它會被存儲在服務器端,還是隻會顯示給客戶端? 2)我們有在屏幕抓取中加密發佈數據的選項嗎? 3)建議使用屏幕抓取銀行應用程序? 我使用的屏幕刮刀工具,我已經從 http://www.screen-scraper.com/download/choose_version.php下載它。 (企業版)在服務器端的屏幕抓取
在此先感謝。
我是新來的屏幕抓取。當我使用代理服務器,當我跟蹤HTTP交易時,我得到了我的發佈數據。所以我的懷疑/問題在於, 1)它會被存儲在服務器端,還是隻會顯示給客戶端? 2)我們有在屏幕抓取中加密發佈數據的選項嗎? 3)建議使用屏幕抓取銀行應用程序? 我使用的屏幕刮刀工具,我已經從 http://www.screen-scraper.com/download/choose_version.php下載它。 (企業版)在服務器端的屏幕抓取
在此先感謝。
1)你是什麼意思的服務器端?您的代理服務器或屏幕刮板軟件?他們中的任何人都可以讀取/存儲您的信息。
2)如果要連接通過HTTPS那麼你的軟件應該提醒你注意惡意代理服務器:https://security.stackexchange.com/questions/8145/does-https-prevent-man-in-the-middle-attacks-by-proxy-server
3)我不認爲他們有一些記錄,他們可以讀取。但如果你擔心,你可以嘗試寫你自己的。有一些API,你可以閱讀HTML容易使用jQuery sintax: https://pypi.python.org/pypi/pyquery或XPath:http://net.tutsplus.com/tutorials/javascript-ajax/web-scraping-with-node-js/
我用刮的經驗是,如果你沒有做任何事情超級複雜(如登錄到一個安全的網站就像一個網上銀行網站等),那麼Python有一些很棒的庫,可以幫助你解決很多問題。
回答您的問題:
1)您可能需要更加清晰,但這真的取決於你的服務器/客戶端架構。
2)事實上你的確如此。 Urllib和Urllib2(內置Python庫)都具有使您能夠在進行POST之前加密數據的功能。至於這種加密的安全程度如何,對於大多數應用程序來說,這就足夠了。
3)我其實已經在網上銀行網站上做過刮!!我並不完全熟悉該工具,但我會建議使用與刮板不同的東西。 Selenium是一個「網絡驅動程序」,它允許您模擬瀏覽器的使用情況,這意味着爲了驗證會話,瀏覽器在後臺執行的任何操作都會自動處理。我在試圖颳去銀行網站時遇到的主要問題是重要會話數據的丟失。
硒 - https://pypi.python.org/pypi/selenium
其他庫您可能會發現有用的是:urllib的,urllib2的,和機械化
我希望我有些幫助!
我以前用過刮屏刮刮銀行網站。它會像你的瀏覽器一樣影響站點 - 如果站點使用加密,則從屏幕刮板到站點的連接也將變爲現實。
如果你有一個客戶端頁面發送數據到屏幕刮板,你可能應該加密。我通常只是通過SSH進行連接。
這裏是一個問題的鏈接,我可以幫助你更多:http://stackoverflow.com/questions/15605408/logging-into-website-with-multiple-pages-using-python-urllib2-and- cookielib –