screen-scraping

    0熱度

    5回答

    雖然主題聽起來像我正在尋找做一些shifty,我不是;我維護幾百個電話運營商使用的內部網站,並且想要添加以下功能: 我想在所有網頁的標題中添加一個控件,以捕捉整個圖像桌面並將圖像作爲文件保存到共享網絡驅動器,以幫助解決生產問題。這個屏幕截圖應用程序將被JavaScript調用。 我已經研究了有關拍攝截圖本網站許多線程,和所有的應用程序提供不符合我的需要在以下兩種方法之一: 屏幕捕獲應用程序有一個G

    0熱度

    3回答

    總體規劃 讓我的類信息來自動優化並利用其 企業登錄引擎登錄選擇我的單班時間表的網站 整個算法 登錄到 查找我當前的學期及其 相關科目(預設) 導航到正確的頁面,並從各相關 被攝體的數據(講座,實用, 車間倍) 地帶無用 信息 排名的數據,更接近 對方更高的班,在 隨機天低 的人解決一個最佳時機解表 輸出我 最好的情況下信息 輸出我的詳細清單的詳細列表可能的類信息(一些 可能已滿例如) 獲得程序來選

    6熱度

    5回答

    我需要從網站上抓取一些數據,因爲它不能通過他們的網絡服務獲得。以前我需要這樣做時,我使用Apache的HTTP客戶端庫自己編寫了Java代碼,以使相關的HTTP調用可以下載數據。通過點擊瀏覽器中的相關屏幕,同時使用Charles web proxy來記錄相應的HTTP調用,我想出了需要做出的相關調用。 你可以想象這是一個相當乏味的過程,如果有一個工具可以實際生成對應於瀏覽器會話的Java代碼,我期

    4熱度

    1回答

    使用BeautifulSoup 3.1.0.1和Python 2.5.2,並嘗試使用法語解析網頁。然而,當我打電話的findAll,我得到以下錯誤: UnicodeEncodeError: 'ASCII' 編解碼器不能編碼字符U '\ xe9' 在1146的位置是:序數不在範圍內(128) 下面是代碼我目前正在運行: import urllib2 from BeautifulSoup impor

    4熱度

    5回答

    我基本上是想蜘蛛在我的本地網站並創建所有的標題和URL列表作爲在本地主機上的網站的所有網頁獲得 值列表。我對任何有用的東西都是開放的 - 一個C#控制檯應用程序,PowerShell,一些現有的工具等。我們可以假設標記確實存在於文檔中。</p> 注:我需要實際上蜘蛛的文件,因爲標題可能被設置爲代碼而不是標記。

    0熱度

    2回答

    我正在編寫一個應用程序,它需要打開瀏覽器窗口(可能會堅持IE)到使用表單身份驗證的網站。訣竅是他們需要進行身份驗證,以節省時間,因爲我們需要進入的網站數量衆多。 (最後我會在屏幕抓取他們和處理數據......但我仍然需要得到認證件工作,使他們能夠通過在需要時點擊真正的網站。) 我已經得到了Forms Authentication工作,因爲我可以使用HttpWebRequest來獲取html並將其傳

    5熱度

    9回答

    在HTML頁面上識別結構化數據的最佳算法是什麼? 例如Google會在電子郵件中識別住宅/公司的地址,並提供該地址的地圖。

    9熱度

    2回答

    所有這些類型的網站是否只是非法刮谷歌或其他搜索引擎? 據我可以告訴他們沒有'合法'的方式來獲得這個數據的商業網站..雅虎! api(http://developer.yahoo.com/search/siteexplorer/V1/inlinkData.html)僅用於非商業用途,Yahoo!老闆不允許自動查詢等 任何想法?

    1熱度

    2回答

    你會如何解決這個問題? 你在刮博客的HTML。博客的某些HTML是博客文章,其中一些是格式化,側邊欄等。您希望能夠分辨HTML中的哪些文本屬於哪個帖子(即永久鏈接)(如果有的話)。 我知道你在想什麼:你可以看看RSS並忽略HTML!但是,RSS通常只包含非常短的摘錄或刪除您可能感興趣的鏈接。您希望通過同一頁面的HTML和RSS一起打敗RSS的摘錄。 的RSS條目如下: title excer

    12熱度

    5回答

    我需要從Windows應用程序中抓取數據以在另一個程序中運行查詢。有誰知道在.NET中做這件事的好起點嗎?