screen-scraping

    2熱度

    2回答

    每週我都會訪問由WebTrends處理的服務器日誌(約7個配置文件),並將廣告點擊和訪問者信息複製到Excel電子表格中。很多隻是訪問某些部分並找到正確的標題,然後複製獨特的訪問者信息。 我嘗試過使用WebTrends的內置查詢工具,但實際上做得很差(只使用拖放系統而不是基於文本),它有最大數量的參數和查詢的最大長度用查詢。據我所知,WebTrends中的工具不適合我實現自動化整個Web度量收集過

    2熱度

    2回答

    我想弄清楚我正在構建的website緩存的最佳方法。它很大程度上依賴於屏幕上的維基百科網站。下面是我目前在做的過程: 用戶通過我的網站請求來自維基百科的一個主題(即http://www.wikipedia.org/wiki/Kevin_Bacon將http://www.wikipediamaze.com/wiki?topic?=Kevin_Bacon)注:由於IIS不能處理requests tha

    3熱度

    2回答

    我願意創建一個腳本,從一個網站的信息在閃光完成。 我正要開始編寫一個應用程序做這樣的事情: 移動鼠標X,Y位置。 做一個鼠標點擊。 等待x毫秒。 獲取數據。 我的問題是:有沒有更好的方法來做到這一點?任何lib? 感謝您的閱讀!

    2熱度

    2回答

    我收到以下消息的時候,比如應對dev的文件到主分支 cp: /Users/Masi/gitHub/shells/zsh/dvorak: No such file or directory cp: /Users/Masi/gitHub/shells/zsh/dvorak2: No such file or directory 我想詢問創建給定文件夾的時候,使得我最初的命令將被運行,如果我的回答

    2熱度

    3回答

    我需要一個關於我即將開始的項目的建議。 簡而言之,我的應用程序必須去某個足球網站,下載HTML並提取必要的數據。 這是我迄今所做的: :: 1)到了一定的足球網站(前http://www.livescore.com/default.dll?page=england),並使用Web客戶端下載HTML。 :: 2)使用SgmlReader的HTML轉換成XML :: 3)使用XmlDocument的檢

    8熱度

    12回答

    如果有什麼工作可以自動確定html文檔中最重要的數據?舉個例子,想想你的標準新聞/博客/雜誌風格的網站,其中包含導航(可能有子菜單),廣告,評論和獎品 - 我們的文章/博客/新聞機構。 您如何確定新聞/博客/雜誌上的哪些信息是自動化時尚的主要數據? 注意:理想情況下,該方法可以處理格式良好的標記和可怕的標記。是否有人使用段落標籤製作段落或一系列休息。

    0熱度

    2回答

    的問題是屏幕刮緯度/對實體經度從wikimapia.org(餐廳,名稱等)以及基於經/緯度 這裏限制的結果我是如何嘗試: 在Firefox中安裝Live HTTP Headers插件。 填補了形式wikimapia.org的主頁上的「比薩角落」 看到,主站點將達到網址 - 「http://wikimapia.org/sys/search4/?q=pizza+corner」,然後我的屏幕刮從這個頁面

    2熱度

    2回答

    我發現HTML Agility Pack有用和易於使用的屏幕抓取網站。什麼是在Java,Ruby,Python中用於HTML屏幕抓取的等效庫?

    0熱度

    1回答

    所以我有一個客戶想要蜘蛛通過他是成員的網站,並收集參與成員的電子郵件。有沒有商業軟件可以這樣做,還是我最好寫一個屏幕抓取腳本?這一切都假設這當然是允許的。

    5熱度

    2回答

    我需要開發一個垂直搜索引擎作爲網站的一部分。搜索引擎的數據來自特定類別的網站。我想爲此,我需要有一個爬行器來抓取幾個(幾百個)站點(在特定的業務類別中)並提取內容和產品和服務的URL。其他類型的頁面可能無關緊要。大多數網站都很小或很小(最多隻有幾百頁)。產品有10到30個屬性。 關於如何編寫這種爬行器和提取器的任何想法。我用通常的Ruby庫編寫了一些爬蟲和內容提取器,但不是一個完整的搜索引擎。我想