screen-scraping

    0熱度

    1回答

    我是新來的數據抓取,我做了一些關於這些主題的搜索,並遇到了一些工具,如import.io,Jacada,Kimono和UIPath。除UIPath之外,它們都與網絡抓取有關。但似乎UIPath在下載試用版時遇到了一些問題。我嘗試了三次以上下載,但沒有成功。 我在找什麼是一些工具,我可以用它來從我的桌面應用程序中取消數據。意思是我開發了我自己的桌面/ Windows應用程序,我想從該應用程序中取消數

    2熱度

    2回答

    我想通過以下網頁瀏覽導航: http://www.regulomedb.org/ 從本質上講,我在文本框中輸入我的數據,然後點擊提交。提交後,我想下載可用的文件。 截至目前,我有: data = {'data': 'rs7881236'} resp = requests.post('http://www.regulomedb.org/results', data) 當我看的RESP的內容,我

    0熱度

    1回答

    我對這一切都很陌生,所以我希望這是有道理的。因此,源代碼中的數據與被檢查的元素之間存在差異。有沒有什麼辦法可以編寫一個程序向特定的URL發送獲取請求,然後通過「檢查元素」代碼解析?我無法發佈圖片,所以這裏是我的問題http://imgur.com/a/xlUjM的屏幕截圖的鏈接。簡而言之,我可以發送URL的獲取請求並將檢查元素代碼作爲字符串嗎?

    1熱度

    1回答

    我想放棄這個網站 - marcanet.impi.gob.mx/marcanet/controler/RegistroBusca 下面是我使用的代碼,但我沒有得到的結果頁。 $form_url = "http://marcanet.impi.gob.mx/marcanet/controler/RegistroLista"; $data_to_post = array(); $data_to_p

    0熱度

    1回答

    對不起,如果這不是這個問題的地方,但我不知道還有別的問題。 我試圖抓取rotogrinders.com的數據,我遇到了一些挑戰。 我特別希望能夠湊使用此格式的網址前面的NHL比賽數據(很明顯,你可以改變一天的數據的日期): https://rotogrinders.com/game-stats/nhl-skater?site=draftkings&date=11-22-2016 然而,當我到達的頁

    -2熱度

    1回答

    我正在學習Python的拆分技術,但我陷入了抓取Ajax頁面like this one的問題。 我想要取消所有進入頁面的藥物名稱和詳細信息。由於我閱讀了堆棧溢出的大部分答案,但是我沒有在報廢之後獲得正確的數據。我也嘗試使用硒廢料或發送僞造郵寄請求,但它失敗了。 所以請特意幫我解決這個Ajax特別是這個頁面的問題,因爲從下拉選項中選擇一個選項會觸發ajax。 也請爲我提供一些ajax頁面報廢資源。

    0熱度

    1回答

    我正在努力比較價格產品,試圖讓我的價格。我有一個代碼很適合刮一些網頁,但我有一對夫婦有我想在Div類中帶來「價格」的數據,我的代碼不允許我帶上它。我正在研究這個,但我仍然不知道如何。如果有人能幫助我,我會很感激。 這裏是產品的一個的網頁: https://www.jumbo.com.ar/Comprar/Home.aspx?#_atCategory=false&_atGrilla=true&_qu

    0熱度

    1回答

    完整的Java和Jsoup新手,我卡住了。我正在製作一個程序,查看雅虎財經的網站,並抓住股票的當前價格和52周的表格範圍。我目前的價格存在解析問題。 see my browser here我試圖通過跨班級獲取股票價格,正如您可以在我的圖像中看到的那樣,包含股價下跌(紅色)和股價上漲(綠色)時價格變化的跨度。我怎樣才能在Jsoup中獲得這樣的價格,以便我可以選擇它而不考慮課程? 這是我目前的代碼。

    2熱度

    2回答

    我想從網址中獲取比賽數據:「https://www.draftkings.com/contest/gamecenter/32947401」 如果您轉到此網址並且未登錄,它會重新引導您前往大廳。如果您已登錄,它實際上會向您顯示比賽結果。 這裏的一些事情,我試過: - 首先,我使用Chrome的開發網絡工具來觀看請求,同時我手動登錄 -I然後試圖複製,我認爲包含身份驗證cookie的信息,它的形式是:

    0熱度

    1回答

    import scrapy import json class GettingtonDSpider(scrapy.Spider): name = "gettington_d" allowed_domains = ["gettington.com"] start_urls = ['https://api.gettington.com/v1/products?show