html-parsing

    0熱度

    1回答

    我刮從網頁HTML看起來像這樣的價值觀:我成功地使用Python的分區兩次 location=1">MAIN BUILDING</a> : -25.49<br /> 使用分區兩次似乎不太可怕。但有沒有更好的方法來做到這一點?似乎應該有辦法在一個步驟中提取夾在兩個其他字符串之間的字符串,而不是兩個字符串。

    1熱度

    2回答

    我已經成功與beautifulsoup來分析以下數據: <span class="price-currency">$</span>200.00</span>, <span class="j-original-price"> <span class="price-currency">$</span>1,000.00</span>, <span class="j-original-price">

    3熱度

    2回答

    我剛開始與網絡中的R刮,我把這個代碼: mps <- read_html("http://tunisie-annonce.com/AnnoncesImmobilier.asp") mps %>% html_nodes("tr") %>% html_text() 爲了獲得所需的內容,我把一個文本文件中。我的問題是我想消除這些紅點,但我不能。你可以幫我嗎? 我認爲這些觀點正

    0熱度

    2回答

    我試圖從'http://www.flashscore.com/'提取足球係數表。當您查看頁面的源代碼時,您可以看到該表格位於id =「fs」的div內。但是,當我搜索該div時,BeautifulSoup不返回任何內容。我寫了如下腳本。這裏有什麼問題? Code import requests from bs4 import BeautifulSoup r = requests.get("

    3熱度

    1回答

    我與BeautilfulSoup玩弄周圍,我正在尋找一種方式來獲得一個JS元素中的特定JSON字符串提取JSON。 這裏的JS: <script>window.pinball = window.pinball || []; window.pinball.push(['add', {"srp_cleanup":"inactive","book_visit":"inactive","my_visit

    2熱度

    1回答

    我嘗試將HTML頁面轉換爲樹結構。我已經得到的這個類(我刪除了我實際上做與每個標籤,因爲它是不相關): class PageParser(html.parser.HTMLParser): def handle_starttag(self, tag, attrs): print("start "+tag) def handle_endtag(self, tag):

    3熱度

    4回答

    我一直在試圖獲取一個HTML文件,並將其作爲一個jQuery對象分配給一個變量。無濟於事。我不確定Stack Snippets是否允許GET請求,所以這裏也是JSFiddle link。 var html = '<!DOCTYPE html><html lang="en"><head><title>Template</title></head><body itemscope itemtype="h

    0熱度

    1回答

    通常,我嘗試從此站點獲取至少一些標記,並且始終不給出任何標記。我不知道如何解決這個問題。 有一個按鈕票,從側面按下後有一個額外的面板,所以我想解析它,我不明白如何。據我瞭解,點擊後不會立即加載此選項卡,下一步我不明白。附:剛開始學習它。 # coding: utf-8-sig import urllib.request from bs4 import BeautifulSoup heade

    2熱度

    1回答

    我試圖通過JSoup獲取Google搜索結果列表。我目前使用的方法對第一頁(n)工作得非常好,但對於n + 1頁,它不能很好地工作。這是我應得的第一頁: doc = Jsoup.connect(search).userAgent("Chrome").get(); links = doc.getElementsByClass("r"); 搜索字符串將包含這樣的內容:https://www.go

    1熱度

    1回答

    我試圖從 url <- ("http://angel.co/companies?locations[]=1647-India") 代碼提取數據: library(XML) my <- htmlParse(url) Error: failed to load external entity from url 嘗試2: library(XML) library(httr) qw <- G