screen-scraping

    9熱度

    2回答

    我試圖自動化我們的一些流程的按鈕的網頁,一個包括登錄到外部網頁,點擊一個鏈接,擴大細節,然後抓住顯示所有細節。 我已經得到了處理登錄,並能抓住所有的細節一旦被擴大。 問題在於點擊鏈接。該鏈接被定義如下圖所示(我已刪除什麼Submit方法是確實的代碼很長,大概不相干顯然img是佔位符只是作爲一個例子。): <a id="form:SummarySubView:closedToggleControl"

    1熱度

    2回答

    問題 我試圖刮圖像和自動分頁。我使用的是網頁上項目的span說明對比總項目:1 - 20 of 83,829 results。我想通過這個while循環運行夢魘,但它會掛起並給我一個Javascript heap out of memory錯誤。有沒有辦法讓每次都執行它,而不是推到堆棧上,因爲我覺得它就是這樣做的。 代碼來解決 function scrapeEach(paginate) { //

    -1熱度

    1回答

    我正嘗試從網站抽取數據: https://www.disco.com.ar/Comprar/Home.aspx#_atCategory=false&_atGrilla=true&_id=21063 通過宏觀 在的Excel 2013,如實時價格,產品名稱和形象。 我已經嘗試了excel網絡查詢,但它不起作用。 有沒有辦法做到這一點?

    0熱度

    1回答

    我一直在製作一個簡單的刮刀,使用美麗的湯根據用戶輸入的郵編獲得食品衛生評級。該代碼正常工作,並正確地從URL中獲取結果。 我需要幫助的是如何讓所有結果顯示,而不僅僅是第一頁的結果。 我的代碼如下: import requests from bs4 import BeautifulSoup pc = input("Please enter postcode") url = "https:/

    1熱度

    1回答

    因此,我的應用程序需要來自給定URL的可見內容,例如文本部分,無html無頁眉或頁腳數據。截至目前,我使用beautifulsoup和boilerpipe獲得相同的。但在極少數情況下,我沒有獲得足夠的數據或正確的數據。所以想知道是否還有其他競爭對手,編程語言不是障礙。

    0熱度

    1回答

    我是新來的,需要一些建議爲我的模塊。 我已經創建了下面的模塊,用於從與alexa.com特定地址刮數據值: alexa.com/siteinfo/clashofclans.com 具體值嵌套在下面的表中: http://imgur.com/JB11PT2 我試圖從美國獲得數據「訪客百分比」,其值爲9.1%,但代碼僅在美國位於第一行/第一位時纔有效。 http://imgur.com/yMBmdbs

    0熱度

    2回答

    我需要來自this互動地圖的數據。從「檢查元素」中,我可以看到數據可用,但不知道如何將其存入電子表格。我想刮掉每個縣的FIPS代碼和監禁監禁率。有誰知道從哪裏開始?

    0熱度

    1回答

    我正在抓取包含大量數據的網頁,格式爲HTML表格。您必須提交表單才能生成表格。我的節點腳本提交了表單的所有排列,並且每次都會擦除結果表,將每行都變成一行數據。 問題是,當我將數據寫入某個文件時,當文件大小約爲10MB時,它停止工作。有時候會少一點;有時多一點。我曾嘗試將該文件編寫爲.csv,.json和.txt,並且每次都發生相同的問題。 我正在使用fs來執行此任務。相關的代碼是: var fs

    -1熱度

    2回答

    使用MacOS上的Selenium和Chrome webdriver需要單擊下拉元素。但總是有一個無法找到的錯誤。有一個頁面,它坐落在此的html代碼: <select id="periodoExtrato" name="periodoExtrato" class="EXTtexto" onchange="enviarExtrato(document.formperiodo.periodoExtr

    2熱度

    2回答

    我在這裏要做的是從動態頁面檢索數據,該頁面不斷用信息重新加載。我設置它的方式是每60秒刷新一次。問題是舊數據沒有從頁面中刪除,所以當程序在刷新後經過數據時,會有重複。 注意:程序在開始時睡覺,因爲最初沒有消息要刮擦。 我正在尋找一種方法或解決方案來使用最後一條記錄(在這種情況下將消息[-1])作爲搜索的起點,以防止重複。 感謝所有幫助!謝謝。 driver.get(URL) while 1==1