html-parsing

0熱度

1回答

是否有一個Python命令返回夾在兩個標識符之間的字符串？再次ID字符串<code>MAIN BUILDING</a> :</code>後，以節省一切，然後<code> </code>之前保存的部分：

我刮從網頁HTML看起來像這樣的價值觀：我成功地使用Python的分區兩次 location=1">MAIN BUILDING</a> : -25.49 使用分區兩次似乎不太可怕。但有沒有更好的方法來做到這一點？似乎應該有辦法在一個步驟中提取夾在兩個其他字符串之間的字符串，而不是兩個字符串。

1熱度

2回答

用美麗的湯解析。查找字符串（數字）span標籤外

我已經成功與beautifulsoup來分析以下數據： $200.00, $1,000.00,

3熱度

2回答

網站有R刮，內容

我剛開始與網絡中的R刮，我把這個代碼： mps <- read_html("http://tunisie-annonce.com/AnnoncesImmobilier.asp") mps %>% html_nodes("tr") %>% html_text() 爲了獲得所需的內容，我把一個文本文件中。我的問題是我想消除這些紅點，但我不能。你可以幫我嗎？我認爲這些觀點正

0熱度

2回答

美麗的湯4 HTML解析

我試圖從'http://www.flashscore.com/'提取足球係數表。當您查看頁面的源代碼時，您可以看到該表格位於id =「fs」的div內。但是，當我搜索該div時，BeautifulSoup不返回任何內容。我寫了如下腳本。這裏有什麼問題？ Code import requests from bs4 import BeautifulSoup r = requests.get("

3熱度

1回答

BeautifulSoup - 從JS

我與BeautilfulSoup玩弄周圍，我正在尋找一種方式來獲得一個JS元素中的特定JSON字符串提取JSON。這裏的JS： <script>window.pinball = window.pinball || []; window.pinball.push(['add', {"srp_cleanup":"inactive","book_visit":"inactive","my_visit

2熱度

1回答

如何處理沒有結尾斜槓的空HTML元素？

我嘗試將HTML頁面轉換爲樹結構。我已經得到的這個類（我刪除了我實際上做與每個標籤，因爲它是不相關）： class PageParser(html.parser.HTMLParser): def handle_starttag(self, tag, attrs): print("start "+tag) def handle_endtag(self, tag):

3熱度

4回答

我的HTML有什麼問題，jQuery不解析它？

我一直在試圖獲取一個HTML文件，並將其作爲一個jQuery對象分配給一個變量。無濟於事。我不確定Stack Snippets是否允許GET請求，所以這裏也是JSFiddle link。 var html = '<!DOCTYPE html><html lang="en"><head><title>Template</title></head><body itemscope itemtype="h

0熱度

1回答

Python分析器輸出無

通常，我嘗試從此站點獲取至少一些標記，並且始終不給出任何標記。我不知道如何解決這個問題。有一個按鈕票，從側面按下後有一個額外的面板，所以我想解析它，我不明白如何。據我瞭解，點擊後不會立即加載此選項卡，下一步我不明白。附：剛開始學習它。 # coding: utf-8-sig import urllib.request from bs4 import BeautifulSoup heade

2熱度

1回答

使用JSoup獲取Google搜索結果

我試圖通過JSoup獲取Google搜索結果列表。我目前使用的方法對第一頁（n）工作得非常好，但對於n + 1頁，它不能很好地工作。這是我應得的第一頁： doc = Jsoup.connect(search).userAgent("Chrome").get(); links = doc.getElementsByClass("r"); 搜索字符串將包含這樣的內容：https://www.go

1熱度

1回答

htmlParse未能加載外部實體

我試圖從 url <- ("http://angel.co/companies?locations[]=1647-India") 代碼提取數據： library(XML) my <- htmlParse(url) Error: failed to load external entity from url 嘗試2： library(XML) library(httr) qw <- G