screen-scraping

9熱度

2回答

我試圖自動化我們的一些流程的按鈕的網頁，一個包括登錄到外部網頁，點擊一個鏈接，擴大細節，然後抓住顯示所有細節。我已經得到了處理登錄，並能抓住所有的細節一旦被擴大。問題在於點擊鏈接。該鏈接被定義如下圖所示（我已刪除什麼Submit方法是確實的代碼很長，大概不相干顯然img是佔位符只是作爲一個例子。）： <a id="form:SummarySubView:closedToggleControl"

1熱度

2回答

如何在while循環中執行nightmarejs

問題我試圖刮圖像和自動分頁。我使用的是網頁上項目的span說明對比總項目：1 - 20 of 83,829 results。我想通過這個while循環運行夢魘，但它會掛起並給我一個Javascript heap out of memory錯誤。有沒有辦法讓每次都執行它，而不是推到堆棧上，因爲我覺得它就是這樣做的。代碼來解決 function scrapeEach(paginate) { //

-1熱度

1回答

阿根廷超市網刮

我正嘗試從網站抽取數據： https://www.disco.com.ar/Comprar/Home.aspx#_atCategory=false&_atGrilla=true&_id=21063 通過宏觀在的Excel 2013，如實時價格，產品名稱和形象。我已經嘗試了excel網絡查詢，但它不起作用。有沒有辦法做到這一點？

0熱度

1回答

Python - 顯示來自所有頁面的結果不僅僅是第一頁（美麗的湯）

我一直在製作一個簡單的刮刀，使用美麗的湯根據用戶輸入的郵編獲得食品衛生評級。該代碼正常工作，並正確地從URL中獲取結果。我需要幫助的是如何讓所有結果顯示，而不僅僅是第一頁的結果。我的代碼如下： import requests from bs4 import BeautifulSoup pc = input("Please enter postcode") url = "https:/

1熱度

1回答

最佳可見內容提取器可用

因此，我的應用程序需要來自給定URL的可見內容，例如文本部分，無html無頁眉或頁腳數據。截至目前，我使用beautifulsoup和boilerpipe獲得相同的。但在極少數情況下，我沒有獲得足夠的數據或正確的數據。所以想知道是否還有其他競爭對手，編程語言不是障礙。

0熱度

1回答

VBA - 從HTMl表中獲取innertextxt如果條件第一個td在行爲真

我是新來的，需要一些建議爲我的模塊。我已經創建了下面的模塊，用於從與alexa.com特定地址刮數據值： alexa.com/siteinfo/clashofclans.com 具體值嵌套在下面的表中： http://imgur.com/JB11PT2 我試圖從美國獲得數據「訪客百分比」，其值爲9.1％，但代碼僅在美國位於第一行/第一位時纔有效。 http://imgur.com/yMBmdbs

0熱度

2回答

從地圖提取數據

我需要來自this互動地圖的數據。從「檢查元素」中，我可以看到數據可用，但不知道如何將其存入電子表格。我想刮掉每個縣的FIPS代碼和監禁監禁率。有誰知道從哪裏開始？

0熱度

1回答

Node.js：fs writestream在文件變得太大時停止寫入文件

我正在抓取包含大量數據的網頁，格式爲HTML表格。您必須提交表單才能生成表格。我的節點腳本提交了表單的所有排列，並且每次都會擦除結果表，將每行都變成一行數據。問題是，當我將數據寫入某個文件時，當文件大小約爲10MB時，它停止工作。有時候會少一點;有時多一點。我曾嘗試將該文件編寫爲.csv，.json和.txt，並且每次都發生相同的問題。我正在使用fs來執行此任務。相關的代碼是： var fs

-1熱度

2回答

使用Selenium和Python單擊下拉列表中的元素

使用MacOS上的Selenium和Chrome webdriver需要單擊下拉元素。但總是有一個無法找到的錯誤。有一個頁面，它坐落在此的html代碼： <select id="periodoExtrato" name="periodoExtrato" class="EXTtexto" onchange="enviarExtrato(document.formperiodo.periodoExtr

2熱度

2回答

刮動態數據並避免重複使用Python中的BS4，Selenium

我在這裏要做的是從動態頁面檢索數據，該頁面不斷用信息重新加載。我設置它的方式是每60秒刷新一次。問題是舊數據沒有從頁面中刪除，所以當程序在刷新後經過數據時，會有重複。注意：程序在開始時睡覺，因爲最初沒有消息要刮擦。我正在尋找一種方法或解決方案來使用最後一條記錄（在這種情況下將消息[-1]）作爲搜索的起點，以防止重複。感謝所有幫助！謝謝。 driver.get(URL) while 1==1