screen-scraping

0熱度

5回答

有沒有人知道可以從JavaScript調用來創建和保存桌面屏幕截圖的無GUI應用程序？

雖然主題聽起來像我正在尋找做一些shifty，我不是;我維護幾百個電話運營商使用的內部網站，並且想要添加以下功能：我想在所有網頁的標題中添加一個控件，以捕捉整個圖像桌面並將圖像作爲文件保存到共享網絡驅動器，以幫助解決生產問題。這個屏幕截圖應用程序將被JavaScript調用。我已經研究了有關拍攝截圖本網站許多線程，和所有的應用程序提供不符合我的需要在以下兩種方法之一：屏幕捕獲應用程序有一個G

0熱度

3回答

自動化類的時間表優化爬蟲？

總體規劃讓我的類信息來自動優化並利用其企業登錄引擎登錄選擇我的單班時間表的網站整個算法登錄到查找我當前的學期及其相關科目（預設）導航到正確的頁面，並從各相關被攝體的數據（講座，實用，車間倍）地帶無用信息排名的數據，更接近對方更高的班，在隨機天低的人解決一個最佳時機解表輸出我最好的情況下信息輸出我的詳細清單的詳細列表可能的類信息（一些可能已滿例如）獲得程序來選

6熱度

5回答

自動生成HTTP屏幕抓取Java代碼

我需要從網站上抓取一些數據，因爲它不能通過他們的網絡服務獲得。以前我需要這樣做時，我使用Apache的HTTP客戶端庫自己編寫了Java代碼，以使相關的HTTP調用可以下載數據。通過點擊瀏覽器中的相關屏幕，同時使用Charles web proxy來記錄相應的HTTP調用，我想出了需要做出的相關調用。你可以想象這是一個相當乏味的過程，如果有一個工具可以實際生成對應於瀏覽器會話的Java代碼，我期

4熱度

1回答

使用BeautifulSoup 3.1.0.1和Python 2.5.2的UnicodeEncodeError

使用BeautifulSoup 3.1.0.1和Python 2.5.2，並嘗試使用法語解析網頁。然而，當我打電話的findAll，我得到以下錯誤： UnicodeEncodeError： 'ASCII' 編解碼器不能編碼字符U '\ xe9' 在1146的位置是：序數不在範圍內（128）下面是代碼我目前正在運行： import urllib2 from BeautifulSoup impor

4熱度

5回答

最快的方式從

我基本上是想蜘蛛在我的本地網站並創建所有的標題和URL列表作爲在本地主機上的網站的所有網頁獲得值列表。我對任何有用的東西都是開放的 - 一個C＃控制檯應用程序，PowerShell，一些現有的工具等。我們可以假設標記確實存在於文檔中。</p> 注：我需要實際上蜘蛛的文件，因爲標題可能被設置爲代碼而不是標記。

0熱度

2回答

如何將Cookie傳遞到外部網絡瀏覽器？

我正在編寫一個應用程序，它需要打開瀏覽器窗口（可能會堅持IE）到使用表單身份驗證的網站。訣竅是他們需要進行身份驗證，以節省時間，因爲我們需要進入的網站數量衆多。（最後我會在屏幕抓取他們和處理數據......但我仍然需要得到認證件工作，使他們能夠通過在需要時點擊真正的網站。）我已經得到了Forms Authentication工作，因爲我可以使用HttpWebRequest來獲取html並將其傳

5熱度

9回答

識別網頁物理地址的算法

在HTML頁面上識別結構化數據的最佳算法是什麼？例如Google會在電子郵件中識別住宅/公司的地址，並提供該地址的地圖。

9熱度

2回答

像Hubspot這樣的網站如何跟蹤入站鏈接？

所有這些類型的網站是否只是非法刮谷歌或其他搜索引擎？據我可以告訴他們沒有'合法'的方式來獲得這個數據的商業網站..雅虎！ api（http://developer.yahoo.com/search/siteexplorer/V1/inlinkData.html）僅用於非商業用途，Yahoo！老闆不允許自動查詢等任何想法？

1熱度

2回答

將RSS條目映射到HTML主體w。非精確搜索

你會如何解決這個問題？你在刮博客的HTML。博客的某些HTML是博客文章，其中一些是格式化，側邊欄等。您希望能夠分辨HTML中的哪些文本屬於哪個帖子（即永久鏈接）（如果有的話）。我知道你在想什麼：你可以看看RSS並忽略HTML！但是，RSS通常只包含非常短的摘錄或刪除您可能感興趣的鏈接。您希望通過同一頁面的HTML和RSS一起打敗RSS的摘錄。的RSS條目如下： title excer

12熱度

5回答

屏幕抓取c中的Windows應用程序＃

我需要從Windows應用程序中抓取數據以在另一個程序中運行查詢。有誰知道在.NET中做這件事的好起點嗎？