2017-06-05 251 views
0

在web上發現的一個獨特的html案例中,有一個html文檔在父HTML標籤中有多個html標籤。我想解析html標籤的內容。任何人都可以指示我這樣做嗎?如何使用BeautifulSoup解析HTML標籤內部的HTML標籤的內容?

在此先感謝。

編輯1: 使用BeautifulSoup

soup = BeautifulSoup(html, "lxml") 

只給出父html和在它存在的標籤。

但是,我假設瀏覽器是否能夠呈現HTML BS應該能夠解析它。這個假設是否正確?

編輯2: 實際上,html是一個格式不正確的html(我在這裏假設),這是我用beautifulsoup解析的html,我只是得到表格和第一個(最外面的)html。如果我手動刪除多個HTML標籤,只保留1個HTML標籤,我可以解析BS中的表格。所以,問題是「有沒有辦法來解析下面的html和獲取文件從最裏面的數據,或者所有的表?

<!DOCTYPE html> 
<html> 
<head> 
    <title>Some Title</title> 
</head> 
<body> 
    some html to display the tables. 
    <html> 
     <head></head> 
     <title>Some other title</title> 
     <body> 
      some html to display even more tables. 
     </body> 
    </html> 
</body> 
</html> 
+0

,如果你給的網址,並解釋你正在嘗試從中提取會是什麼幫助。 –

回答

0

這裏是一個示例代碼,您可以使用內發現的特定文本一種特殊的HTML標記的

soup2 = BeautifulSoup(x, 'html.parser') 
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}): 
     for j in i.find_all('li'): 
+0

我已經更新了包含更多細節的問題,請您評論一下嗎?提前致謝。 – Kaustubh