scraper

    0熱度

    1回答

    我試圖讓我的輸出從我的代碼進入一個excel電子表格,我不斷收到此特定錯誤: 「異常:嘗試覆蓋細胞:SHEETNAME = U」表1'rowx = 1 colx = 0「 我如何設置我的代碼是我需要它以便找到項目並打印所需的結果,因爲我正在使用它來刮擦.PDF並且它會產生如果我想把它全部寫入一個文本文件,則需要確切的輸出。但我希望輸出爲excel,因此我可以指定數據的位置。看起來,因爲代碼的輸出循

    1熱度

    2回答

    我試圖瞭解如何刮從PHP的黃頁網站解碼電話號碼&捲曲。 下面是一個例子網址: https://www.gelbeseiten.de/test 通常情況下,你可以在技術上與像這樣做: $ch = curl_init(); $page = curl_exec($ch); if(preg_match('#example html code (.*) example html code#', $pa

    0熱度

    1回答

    好吧,這是我編寫的webscraper的代碼。現在它把我用湯選擇的所有東西都刮掉了。但是當我查看我的頁面的源代碼時,這個數據包括一個<br>這是換行符。 當我抓取並保存所有文件時,將其排除,使得所有數據都在一行中,而不包含<br>標記。我想這<br>在那裏每個數據被寫入到文件後,如下所示: Data<br>Data<br>Data<br>Data<br> 而不是: DataDataDataDa

    0熱度

    2回答

    嗨,大家好, 我一直在使用計算器來學習如何寫我的第一個Python腳本。我實際上正在構建一個webscraper,我需要你的幫助/意見/主角進一步完善我的小項目。 到目前爲止,我可以登錄到該網站,訪問正確的頁面,颳去所有表,將數據放入一個列表,創建一個Excel文件 我想: -instead刮中所有表我想得到的只是第三個HTML頁面 -export在Excel中的列表文件 -to知道是否有刮表,因

    3熱度

    1回答

    我剛剛開始使用JS和Node.js.我正在嘗試使用Node.js和一些模塊(如request和cheerio)來構建一個簡單的刮板作爲第一個項目。 我想爲包含在數組中的每個域的每個http請求之間添加一個5秒的延遲。你能解釋我該怎麼做嗎? 這裏是我的代碼: var request = require('request'); var arr = [ "http://allrecipes.com/

    0熱度

    2回答

    我是新來的Python和scrapy,但我試圖建立一個履帶式和刮刀提取亞馬遜頁面上的產品列表, 刮下的信息必須有名稱,價格和優越的可用性。物品被刮掉,但是每個物品被刮掉的時候都是在csv文件中輸出完全在一個單獨的單元格中。 所有我想要的是讓每個產品及其相應的細節在每個單元輸出明顯。 的邏輯是: items= [] for products in response.xpath('//*[@

    2熱度

    1回答

    我正在開發一個Node.js應用程序,並使用Selenium Webdriver進行刮取。但是,當我部署在Heroku上時,Selenium不起作用。我如何讓Selenium在Heroku上工作?

    0熱度

    2回答

    我有一個已經建立的LinkedIn刮板(內置Python),它將公司URL列表作爲輸入,並輸出關於該公司的所有信息(如位置,網站和規模(員工人數))。 問題是輸入:它需要一個URL列表,但我有一個公司名稱列表。有沒有一種方法可以將公司名稱列表轉換爲LinkedIn URL列表以供給刮板。

    1熱度

    1回答

    真的很感謝任何人都可以提供幫助。 代碼的部分總是碰上運行 - 時間錯誤 enter image description here 的HTML部分是在畫面 enter image description here 謝謝關注。 Sub HTML_Table_To_Excel() Dim objIE As Object Set objIE = CreateObject("Intern

    1熱度

    1回答

    我使用scrapy創建爬蟲。並創建一些爬行許多頁面的腳本。 不幸的是,並非所有腳本都抓取所有頁面。有些頁面會返回所有頁面,其他頁面可能只有23或180(每個URL的結果不同)。 import scrapy class BotCrawl(scrapy.Spider) name = "crawl-bl2" start_urls = [ 'http://www.buk