只提取類文本

我正在嘗試解決這個問題。萃取完美地工作，但其結果是：只提取類文本

「的div類=」 ppl_product_header 「」「H1」存儲器4千兆DIMM 2133 MTS CL15 「/ H1」，「/格」

但我只需要「h1」和「」h1「」之間的內容。即僅文本。

from bs4 import BeautifulSoup 
import urllib2 
import time 
y=0 
url ="http://www.grupccccco.com.ar/PROcccO/PcccD_ID=3704444/Distrfffdora.aspx" 
html_page = urllib2.urlopen(url) 
soup = BeautifulSoup(html_page) 
x=soup.find_all('div', class_='ppl_product_header') 
print x 

print "good bye"

來源

2016-07-05 Damian Perez

「= < or > ....... –

使用'打印x.text' –

使用get_text()，你的情況 - print x.get_text()

來源

2016-07-05 16:11:30 Daerdemandt

只提取類文本

回答

相關問題