screen-scraping

    4熱度

    2回答

    我想傳遞的utidy到美麗的湯,結果,鼻翼: page = urllib2.urlopen(url) options = dict(output_xhtml=1,add_xml_decl=0,indent=1,tidy_mark=0) cleaned_html = tidy.parseString(page.read(), **options) soup = BeautifulSoup(cl

    7熱度

    2回答

    是否可以爲受表單登錄保護的網站編寫屏幕截圖。當然,我有權訪問該網站,但我不知道如何登錄該網站並將其憑據保存在C#中。另外,任何C#中的屏幕清理器的例子都將非常感謝。 這已經完成了嗎?

    3熱度

    1回答

    所以我試圖提取我的網站使用紅寶石機械化和hpricot的電子郵件。 什麼我試圖做我的行政管理方面的所有頁面上的循環,並用hpricot.so解析頁面非常好。然後我得到: Exception `Net::HTTPBadResponse' at /usr/lib/ruby/1.8/net/http.rb:2022 - wrong status line: *SOME HTML CODE HERE*

    2熱度

    2回答

    我想使用adblosck plus訂閱從我即將廢棄的網頁中移除廣告。有沒有人使用過這種方法?這種解決方案的性能如何?擴展名本身使用的算法是什麼?

    0熱度

    2回答

    我試圖調試一個DOM包裝打包叫crowbar。總之,當我運行我得到: Error: [Exception... "Component returned failure code: 0xc1f30001 (NS_ERROR_NOT_INITIALIZED) [nsIServerSocket.asyncListen]" nsresult: "0xc1f30001 (NS_ERROR_NOT_INITI

    4熱度

    2回答

    import mechanize url = 'http://steamcommunity.com' br=mechanize.Browser(factory=mechanize.RobustFactory()) br.open(url) print br.request print br.form for each in br.forms(): print each

    2熱度

    2回答

    我想刮掉我的硬盤上超過1200個.htm文件的行。在我的電腦上,他們在這裏'file:///home/phi/Data/NHL/pl07-08/PL020001.HTM'。這些.htm文件從* 20001.htm開始依次爲* 21230.htm。我的計劃是最終通過電子表格應用程序在MySQL或SQLite中拋出數據,或者直接從這個過程中獲得一個乾淨的.csv文件。 這是我第一次嘗試代碼(Pytho

    0熱度

    1回答

    我想設置一個頁面(如果它是堆棧溢出的一部分)會生成一個Stackoverflow Flair Blogger小工具。

    4熱度

    3回答

    我想知道是否有任何技術來識別收集非法使用信息的網絡爬蟲。說白了,數據被盜用來創建一個網站的副本。 理想情況下,該系統會檢測來自未知來源的抓取模式(如果不在列表中,則使用Google抓取工具等),並將僞造信息發送給抓取抓取工具。 如果作爲防禦者,我會定期檢測到一個未知的爬行器,它會定時擊中站點,攻擊者會隨機分配這些間隔。 如果作爲防禦者,我檢測到相同的代理/ IP,攻擊者會隨機分配代理。 而這正是我

    8熱度

    4回答

    通過SSL使用.NET屏幕抓取站點有什麼解決方案? 我的用例是我需要登錄到合作伙伴網站(https),瀏覽動態層次結構並下載壓縮的報告文件。 如果.NET中沒有好的可行選項,無論是框架還是OSS,我當然可以使用其他屏幕抓取工具。