如何在beautifulsoup中獲取div標籤的內部html屬性

一個網站內置有內置HTML如何在beautifulsoup中獲取div標籤的內部html屬性

美麗的湯沒有提取嵌入的HTML代碼。

我需要提取class = qwjRop的div元素

例如，不能夠提取「在這個價格好」的div標籤

import requests 
from bs4 import BeautifulSoup 

url="https://www.flipkart.com/hp-pentium-quad-core-4-gb-1-tb-hdd-dos-15-be010tu-notebook/product-reviews/itmeprzhy4hs4akv?page1&pid=COMEPRZBAPXN2SNF" 


def clawler(in_url): 
    source_code = requests.get(in_url) 
    plain_text = source_code.text 
    soup = BeautifulSoup(plain_text, "html.parser")  

    for name in soup.findAll('div',{'class':'qwjRop'}): 
     print(name.prettify())

來源

2017-08-05 Zain Danish

你能不能給我們您遇到解析問題HTML的樣本？「嵌入HTML代碼」究竟意味着什麼？你的意思是一個iframe？ – geekonaut

編輯完整的代碼，好心的看看它...... –

該頁面的JavaScript渲染，你可以使用Selenium以使其：

首先安裝硒：

sudo pip3 install selenium

然後獲得驅動程序https://sites.google.com/a/chromium.org/chromedriver/downloads如果您使用的是Windows或Mac，則可以使用無鍍鉻「Chrome Canary」無頭版本。

import bs4 as bs 
from selenium import webdriver 
browser = webdriver.Chrome() 
url="https://www.flipkart.com/hp-pentium-quad-core-4-gb-1-tb-hdd-dos-15-be010tu-notebook/product-reviews/itmeprzhy4hs4akv?page1&pid=COMEPRZBAPXN2SNF" 
browser.get(url) 
html_source = browser.page_source 
browser.quit() 
soup = bs.BeautifulSoup(html_source, "html.parser") 
for name in soup.findAll('div',{'class':'qwjRop'}): 
    print(name.prettify())

或者從事其他非硒方法見我的回答Scraping Google Finance (BeautifulSoup)

來源

2017-08-05 11:54:12

非常感謝，自從早上起我的頭就解決了這個問題。 –

如何在beautifulsoup中獲取div標籤的內部html屬性

回答

相關問題