如何使用BeautifulSoup解析HTML標籤內部的HTML標籤的內容？

在web上發現的一個獨特的html案例中，有一個html文檔在父HTML標籤中有多個html標籤。我想解析html標籤的內容。任何人都可以指示我這樣做嗎？如何使用BeautifulSoup解析HTML標籤內部的HTML標籤的內容？

在此先感謝。

編輯1：使用BeautifulSoup

soup = BeautifulSoup(html, "lxml")

只給出父html和在它存在的標籤。

但是，我假設瀏覽器是否能夠呈現HTML BS應該能夠解析它。這個假設是否正確？

編輯2：實際上，html是一個格式不正確的html（我在這裏假設），這是我用beautifulsoup解析的html，我只是得到表格和第一個（最外面的）html。如果我手動刪除多個HTML標籤，只保留1個HTML標籤，我可以解析BS中的表格。所以，問題是「有沒有辦法來解析下面的html和獲取文件從最裏面的數據，或者所有的表？

<!DOCTYPE html> 
<html> 
<head> 
    <title>Some Title</title> 
</head> 
<body> 
    some html to display the tables. 
    <html> 
     <head></head> 
     <title>Some other title</title> 
     <body> 
      some html to display even more tables. 
     </body> 
    </html> 
</body> 
</html>

來源

2017-06-05 Kaustubh

，如果你給的網址，並解釋你正在嘗試從中提取會是什麼幫助。 –

這裏是一個示例代碼，您可以使用內發現的特定文本一種特殊的HTML標記的

soup2 = BeautifulSoup(x, 'html.parser') 
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}): 
     for j in i.find_all('li'):

來源

2017-06-05 07:20:13

我已經更新了包含更多細節的問題，請您評論一下嗎？提前致謝。 – Kaustubh

這裏有一些網站是有關你的問題，我想你可以找到你要尋找的一個很好的答案。

來源

2017-06-06 13:12:26

你可以添加一些代碼示例，至於如何解決這個問題？ –

如何使用BeautifulSoup解析HTML標籤內部的HTML標籤的內容？

回答

相關問題