screen-scraping

3熱度

2回答

我正在開發一個電子商務搜索引擎，可以讓您搜索很多電子商務網站上的產品。我該如何處理此事？我需要一個應用程序，它能夠掃描網站，解析它們的HTML並確定網站中的哪些圖像是產品圖像，即產品說明，即產品價格。很高興聽到任何想法，例如。在此先感謝。編輯：我的問題不是如何從網站獲取HTML（稱爲屏幕抓取），而是關於如何解析該信息並瞭解哪些html包含我正在查找的實際數據，以及這不是。

2熱度

4回答

我如何從HTML文件中提取所需的數據？

這是HTML我有： p_tags = ''' Full name Foobar Born July 7, 1923, foo, bar <font class="test-pro

5熱度

2回答

計算Twitter上特定單詞的結果數

爲了進一步完善我的個人項目，我一直在思考如何計算Twitter上用戶指定單詞的結果數。我已經廣泛地使用了他們的API，但一直未能提出一種有效或甚至中途切實可行的方法來統計特定單詞的出現。實際結果並不重要，只是整體計數。我會繼續撓撓我的腦袋。任何想法或方向指示將非常感激。例如http://search.twitter.com/search?q=tomatoes

2熱度

2回答

語言Iconv :: IllegalSequence使用WWW時::機械化

我試圖做webscraping的一點點，但WWW：機械化寶石似乎並不喜歡編碼和崩潰。在302重定向POST請求的結果（其中機械化如下，到目前爲止好），並在結果頁似乎崩潰了。我搜索了很多，但到目前爲止沒有提出如何解決這個問題。你們有沒有想法？代碼： require 'rubygems' require 'mechanize' agent = WWW::Mechanize.new ag

1熱度

6回答

我如何阻止網頁抓取沒有阻塞表現良好的機器人？

我正在建立一個電子商務網站，其中包含大量的產品數據庫。當然，Goggle會對網站的所有產品進行索引，這樣會很好。但如果一些競爭對手想要Web Scrap網站並獲得所有圖片和產品說明呢？我在觀察一些有類似產品列表的網站，他們放置了一個驗證碼，所以「只有人類」才能讀取產品列表。缺點是...它對谷歌，雅虎或其他「表現良好」的機器人是不可見的。

12熱度

15回答

超快速刮屏技巧？

我經常發現自己需要爲了內部目的而做一些簡單的屏幕抓取（即，我僅使用通過HTML發佈報告的第三方服務）。現在我至少有兩三個例子。我可以使用Apache httpclient並創建所有必要的屏幕抓取代碼，但需要一段時間。這是我平常的過程：在網站上打開Charles Proxy，看看發生了什麼。開始使用Apache HttpClient編寫一些java代碼，處理cookie，多個請求使用Jeric

3熱度

2回答

使用selectorgadget.com解析HTML文件

如何使用美麗的湯和selectorgadget來刮掉網站。例如，我有一個網站 - (a newegg product)，我希望我的腳本能夠返回該產品的所有規格（點擊規格），我的意思是 - 英特爾，臺式機......，2.4GHz，1066Mhz，。 .....，3年有限。使用selectorgadget後，我得到了與字符串 .desc 如何使用呢？謝謝:)

2熱度

15回答

如何保護我的網頁上某些數據的抓取？

我只想保護每個請求後顯示的特定號碼。大約有30個這樣的數字。我打算在這些數字的位置生成圖像，但是如果圖像沒有像captcha那樣扭曲，那麼無論腳本是否能夠解碼數字？另外，加載圖像對文本的性能影響有多大？

0熱度

1回答

閱讀並響應屏幕上的匹配標準

我期待爲我的Win32系統開發一些可以找到並響應特定屏幕事件的東西。例如，當我的屏幕（屏幕的30x30像素部分）的位圖範圍（100,100）到（130,130）與提供的30x30像素基線匹配時，請執行特定操作。任何人都可以讓我開始呢？也許有一個框架可以使這更容易？或者我可以使用的軟件包？甚至可能是第三方實用程序？

0熱度

2回答

繞過屏幕抓取時發生的警報和錯誤

我創建了一個網頁，用於在從另一個網站上刮取網站的同時刮擦網站;在該網站上有一些錯誤，所以它拋出一個錯誤（對象預期）。但最後我得到了完美的結果。它顯示錯誤發生在我的程序中。是否有可能繞過這些錯誤（不顯示在屏幕上）。我不想顯示這些錯誤，並且還可以繞過警報框，而無需在屏幕上顯示它。請指導我。