screen-scraping

4熱度

2回答

我想傳遞的utidy到美麗的湯，結果，鼻翼： page = urllib2.urlopen(url) options = dict(output_xhtml=1,add_xml_decl=0,indent=1,tidy_mark=0) cleaned_html = tidy.parseString(page.read(), **options) soup = BeautifulSoup(cl

7熱度

2回答

在C＃中用asp.net表單登錄屏幕抓取網站？

是否可以爲受表單登錄保護的網站編寫屏幕截圖。當然，我有權訪問該網站，但我不知道如何登錄該網站並將其憑據保存在C＃中。另外，任何C＃中的屏幕清理器的例子都將非常感謝。這已經完成了嗎？

3熱度

1回答

機械化HTML刮取問題

所以我試圖提取我的網站使用紅寶石機械化和hpricot的電子郵件。什麼我試圖做我的行政管理方面的所有頁面上的循環，並用hpricot.so解析頁面非常好。然後我得到： Exception `Net::HTTPBadResponse' at /usr/lib/ruby/1.8/net/http.rb:2022 - wrong status line: *SOME HTML CODE HERE*

2熱度

2回答

使用Adblock Plus訂閱從下載頁面中移除廣告

我想使用adblosck plus訂閱從我即將廢棄的網頁中移除廣告。有沒有人使用過這種方法？這種解決方案的性能如何？擴展名本身使用的算法是什麼？

0熱度

2回答

XULRunner下的javascript服務器失敗

我試圖調試一個DOM包裝打包叫crowbar。總之，當我運行我得到： Error: [Exception... "Component returned failure code: 0xc1f30001 (NS_ERROR_NOT_INITIALIZED) [nsIServerSocket.asyncListen]" nsresult: "0xc1f30001 (NS_ERROR_NOT_INITI

4熱度

2回答

如何使機械化不失敗與此頁上的窗體？

import mechanize url = 'http://steamcommunity.com' br=mechanize.Browser(factory=mechanize.RobustFactory()) br.open(url) print br.request print br.form for each in br.forms(): print each

2熱度

2回答

刮多個html文件爲CSV

我想刮掉我的硬盤上超過1200個.htm文件的行。在我的電腦上，他們在這裏'file：///home/phi/Data/NHL/pl07-08/PL020001.HTM'。這些.htm文件從* 20001.htm開始依次爲* 21230.htm。我的計劃是最終通過電子表格應用程序在MySQL或SQLite中拋出數據，或者直接從這個過程中獲得一個乾淨的.csv文件。這是我第一次嘗試代碼（Pytho

0熱度

1回答

如何從使用javascript的stackoverflow頁面中獲取用戶號碼？

我想設置一個頁面（如果它是堆棧溢出的一部分）會生成一個Stackoverflow Flair Blogger小工具。

4熱度

3回答

識別敵對網絡爬蟲

我想知道是否有任何技術來識別收集非法使用信息的網絡爬蟲。說白了，數據被盜用來創建一個網站的副本。理想情況下，該系統會檢測來自未知來源的抓取模式（如果不在列表中，則使用Google抓取工具等），並將僞造信息發送給抓取抓取工具。如果作爲防禦者，我會定期檢測到一個未知的爬行器，它會定時擊中站點，攻擊者會隨機分配這些間隔。如果作爲防禦者，我檢測到相同的代理/ IP，攻擊者會隨機分配代理。而這正是我

8熱度

4回答

使用.NET通過SSL抓取屏幕

通過SSL使用.NET屏幕抓取站點有什麼解決方案？我的用例是我需要登錄到合作伙伴網站（https），瀏覽動態層次結構並下載壓縮的報告文件。如果.NET中沒有好的可行選項，無論是框架還是OSS，我當然可以使用其他屏幕抓取工具。