screen-scraping

    3熱度

    2回答

    我正在開發一個電子商務搜索引擎,可以讓您搜索很多電子商務網站上的產品。 我該如何處理此事? 我需要一個應用程序,它能夠掃描網站,解析它們的HTML並確定網站中的哪些圖像是產品圖像,即產品說明,即產品價格。 很高興聽到任何想法,例如。 在此先感謝。 編輯: 我的問題不是如何從網站獲取HTML(稱爲屏幕抓取),而是關於如何解析該信息並瞭解哪些html包含我正在查找的實際數據,以及這不是。

    2熱度

    4回答

    這是HTML我有: p_tags = '''<p class="foo-body"> <font class="test-proof">Full name</font> Foobar<br /> <font class="test-proof">Born</font> July 7, 1923, foo, bar<br /> <font class="test-pro

    5熱度

    2回答

    爲了進一步完善我的個人項目,我一直在思考如何計算Twitter上用戶指定單詞的結果數。我已經廣泛地使用了他們的API,但一直未能提出一種有效或甚至中途切實可行的方法來統計特定單詞的出現。實際結果並不重要,只是整體計數。我會繼續撓撓我的腦袋。任何想法或方向指示將非常感激。 例如http://search.twitter.com/search?q=tomatoes

    2熱度

    2回答

    我試圖做webscraping的一點點,但WWW:機械化寶石似乎並不喜歡編碼和崩潰。 在302重定向POST請求的結果(其中機械化如下,到目前爲止好),並在結果頁似乎崩潰了。 我搜索了很多,但到目前爲止沒有提出如何解決這個問題。你們有沒有想法? 代碼: require 'rubygems' require 'mechanize' agent = WWW::Mechanize.new ag

    1熱度

    6回答

    我正在建立一個電子商務網站,其中包含大量的產品數據庫。當然,Goggle會對網站的所有產品進行索引,這樣會很好。但如果一些競爭對手想要Web Scrap網站並獲得所有圖片和產品說明呢? 我在觀察一些有類似產品列表的網站,他們放置了一個驗證碼,所以「只有人類」才能讀取產品列表。缺點是...它對谷歌,雅虎或其他「表現良好」的機器人是不可見的。

    12熱度

    15回答

    我經常發現自己需要爲了內部目的而做一些簡單的屏幕抓取(即,我僅使用通過HTML發佈報告的第三方服務)。現在我至少有兩三個例子。我可以使用Apache httpclient並創建所有必要的屏幕抓取代碼,但需要一段時間。這是我平常的過程: 在網站上打開Charles Proxy,看看發生了什麼。 開始使用Apache HttpClient編寫一些java代碼,處理cookie,多個請求 使用Jeric

    3熱度

    2回答

    如何使用美麗的湯和selectorgadget來刮掉網站。例如,我有一個網站 - (a newegg product),我希望我的腳本能夠返回該產品的所有規格(點擊規格),我的意思是 - 英特爾,臺式機......,2.4GHz,1066Mhz,。 .....,3年有限。 使用selectorgadget後,我得到了與字符串 .desc 如何使用呢? 謝謝:)

    2熱度

    15回答

    我只想保護每個請求後顯示的特定號碼。大約有30個這樣的數字。我打算在這些數字的位置生成圖像,但是如果圖像沒有像captcha那樣扭曲,那麼無論腳本是否能夠解碼數字?另外,加載圖像對文本的性能影響有多大?

    0熱度

    1回答

    我期待爲我的Win32系統開發一些可以找到並響應特定屏幕事件的東西。例如,當我的屏幕(屏幕的30x30像素部分)的位圖範圍(100,100)到(130,130)與提供的30x30像素基線匹配時,請執行特定操作。 任何人都可以讓我開始呢?也許有一個框架可以使這更容易?或者我可以使用的軟件包?甚至可能是第三方實用程序?

    0熱度

    2回答

    我創建了一個網頁,用於在從另一個網站上刮取網站的同時刮擦網站;在該網站上有一些錯誤,所以它拋出一個錯誤(對象預期)。但最後我得到了完美的結果。 它顯示錯誤發生在我的程序中。是否有可能繞過這些錯誤(不顯示在屏幕上)。我不想顯示這些錯誤,並且還可以繞過警報框,而無需在屏幕上顯示它。 請指導我。