screen-scraping

    -2熱度

    1回答

    我正在尋找從file.csv中的行導入URL,所以美麗的湯可以解析XML,但我不知道如何進行以下操作。 url = row in 'file.csv' soup = BeautifulSoup(urllib2.urlopen('url').read() letters = soup.select('h1') print letters

    4熱度

    2回答

    我看到了Portia的視頻,我在想如何實現這樣的工具。基本上,有一個Web應用程序,你可以在其中輸入一個URL,它會加載(就像你將它加載到一個獨立的瀏覽器標籤中一樣),然後你就可以點擊頁面中的元素,並直觀地選擇你想要提取的數據。 的想法,我現在已經是這樣的: 使用無頭瀏覽器 在web應用程序的路徑檢索網站的內容,將服務的內容拼湊而成 嵌入在iframe路線在數據選擇頁面中,繞過相同的原點策略 集成

    0熱度

    2回答

    我想獲得一個html頁面並閱讀內容。我用的請求(蟒蛇)和我的代碼非常簡單: import requests url = "http://www.romatoday.it" r = requests.get(url) print r.text 當我嘗試做這個程序,我得到過: 連接異常中止',錯誤(110,‘連接超時’) 如果我在瀏覽器中打開網址一切正常。 如果我用其他的URL請求一切正常

    2熱度

    2回答

    我試圖從擁有多個表的網頁上刮表。我想從https://www.census.gov/geo/reference/ansi_statetables.html獲得「美國各州和哥倫比亞特區的FIPS代碼」表。我認爲XML::readHTMLTable()是正確的道路要走,但是當我嘗試下面我得到一個錯誤: url = "https://www.census.gov/geo/reference/ansi_s

    -2熱度

    1回答

    我刮使用ScrapySharp.Extension和Newtonsoft.Json進行序列化和反序列化JSON的結果,我得到的文本文件的形式,結果谷歌的結果,因爲結果與正則表達式和分裂我加密已經從我的結果中刪除了不相關的東西,但仍然有很多無用的垃圾在我的數組中,我只需要結果,搜索到的每個不同的查詢都會給出不同的無用值,有什麼方法可以移除或清除我的數組?我只需要結果。 string[] separ

    0熱度

    1回答

    我創建了一個簡單的網頁抓取工具,通過使用phantomjs從網站抓取數據。當我使用querySelectorAll來獲取我想要的內容時,它不適用於我。這是我的整個代碼。 var page = require('webpage').create(); var url = 'https://www.google.com.kh/?gws_rd=cr,ssl&ei=iE7jV87UKsrF0gSDw4

    0熱度

    1回答

    我可以在我的計算機上以txt文件格式訪問電子郵件,現在我的目標是從中刪除特定的數據。我利用re.compile和enumerate來解析通過郵件尋找匹配的單詞(在我的情況下,魚類如GOM Cod),然後打印它們。但是還有100多封電子郵件需要我解析,每個郵件中都列出了幾種不同的魚類......所以我的問題是:最好的解決方法是什麼?我不能把所有17種不同的可能的魚類放入一個re.compile函數中

    0熱度

    1回答

    我有一些無法登錄到這個網站:https://illinoisjoblink.illinois.gov/ada/r/home 我能夠提交有效載荷,但我重定向到自稱書籤錯誤的頁面。這裏是代碼和相關的錯誤消息。我不知道如何繼續。我感謝任何和所有的幫助。謝謝! session = requests.Session() soup = BeautifulSoup(session.get(SEARCH

    2熱度

    2回答

    var request = require("request"), cheerio = require("cheerio"), fs=require("fs"), urls , url = "http://www.w3schools.com/"; request(url, function (error, response, body) { if (!error && response

    3熱度

    1回答

    我有一個Scrapy蜘蛛它擦傷一個網站,該網站需要刷新令牌能夠訪問它們。 def get_ad(self, response): temp_dict = AppextItem() try: Selector(response).xpath('//div[@class="messagebox"]').extract()[0] print("Captcha