screen-scraping

2熱度

2回答

每週我都會訪問由WebTrends處理的服務器日誌（約7個配置文件），並將廣告點擊和訪問者信息複製到Excel電子表格中。很多隻是訪問某些部分並找到正確的標題，然後複製獨特的訪問者信息。我嘗試過使用WebTrends的內置查詢工具，但實際上做得很差（只使用拖放系統而不是基於文本），它有最大數量的參數和查詢的最大長度用查詢。據我所知，WebTrends中的工具不適合我實現自動化整個Web度量收集過

2熱度

2回答

爲asp.net尋找正確的緩存和壓縮策略

我想弄清楚我正在構建的website緩存的最佳方法。它很大程度上依賴於屏幕上的維基百科網站。下面是我目前在做的過程：用戶通過我的網站請求來自維基百科的一個主題（即http://www.wikipedia.org/wiki/Kevin_Bacon將http://www.wikipediamaze.com/wiki?topic?=Kevin_Bacon）注：由於IIS不能處理requests tha

3熱度

2回答

刮Flash網站

我願意創建一個腳本，從一個網站的信息在閃光完成。我正要開始編寫一個應用程序做這樣的事情：移動鼠標X，Y位置。做一個鼠標點擊。等待x毫秒。獲取數據。我的問題是：有沒有更好的方法來做到這一點？任何lib？感謝您的閱讀！

2熱度

2回答

如何在bash/zsh/ksh中拷貝時創建目錄？

我收到以下消息的時候，比如應對dev的文件到主分支 cp: /Users/Masi/gitHub/shells/zsh/dvorak: No such file or directory cp: /Users/Masi/gitHub/shells/zsh/dvorak2: No such file or directory 我想詢問創建給定文件夾的時候，使得我最初的命令將被運行，如果我的回答

2熱度

3回答

需要建議：使用.NET屏幕抓取網頁

我需要一個關於我即將開始的項目的建議。簡而言之，我的應用程序必須去某個足球網站，下載HTML並提取必要的數據。這是我迄今所做的： :: 1）到了一定的足球網站（前http://www.livescore.com/default.dll?page=england），並使用Web客戶端下載HTML。 :: 2）使用SgmlReader的HTML轉換成XML :: 3）使用XmlDocument的檢

8熱度

12回答

以編程方式檢測頁面上的「最重要的內容」

如果有什麼工作可以自動確定html文檔中最重要的數據？舉個例子，想想你的標準新聞/博客/雜誌風格的網站，其中包含導航（可能有子菜單），廣告，評論和獎品 - 我們的文章/博客/新聞機構。您如何確定新聞/博客/雜誌上的哪些信息是自動化時尚的主要數據？注意：理想情況下，該方法可以處理格式良好的標記和可怕的標記。是否有人使用段落標籤製作段落或一系列休息。

0熱度

2回答

檢測URL POST參數傳遞

的問題是屏幕刮緯度/對實體經度從wikimapia.org（餐廳，名稱等）以及基於經/緯度這裏限制的結果我是如何嘗試：在Firefox中安裝Live HTTP Headers插件。填補了形式wikimapia.org的主頁上的「比薩角落」看到，主站點將達到網址 - 「http://wikimapia.org/sys/search4/?q=pizza+corner」，然後我的屏幕刮從這個頁面

2熱度

2回答

用於Java，Ruby，Python的HTML Agility Pack或HTML Screen Scraping庫？

我發現HTML Agility Pack有用和易於使用的屏幕抓取網站。什麼是在Java，Ruby，Python中用於HTML屏幕抓取的等效庫？

0熱度

1回答

蜘蛛通過關聯電子郵件的郵件

所以我有一個客戶想要蜘蛛通過他是成員的網站，並收集參與成員的電子郵件。有沒有商業軟件可以這樣做，還是我最好寫一個屏幕抓取腳本？這一切都假設這當然是允許的。

5熱度

2回答

爲垂直搜索引擎開發爬行器和刮板

我需要開發一個垂直搜索引擎作爲網站的一部分。搜索引擎的數據來自特定類別的網站。我想爲此，我需要有一個爬行器來抓取幾個（幾百個）站點（在特定的業務類別中）並提取內容和產品和服務的URL。其他類型的頁面可能無關緊要。大多數網站都很小或很小（最多隻有幾百頁）。產品有10到30個屬性。關於如何編寫這種爬行器和提取器的任何想法。我用通常的Ruby庫編寫了一些爬蟲和內容提取器，但不是一個完整的搜索引擎。我想