2016-07-05 62 views
0

我正在嘗試解決這個問題。 萃取完美地工作,但其結果是:只提取類文本

「的div類=」 ppl_product_header 「」 「H1」 存儲器4千兆DIMM 2133 MTS CL15 「/ H1」, 「/格」

但我只需要「h1」和「」h1「」之間的內容。即僅文本。

from bs4 import BeautifulSoup 
import urllib2 
import time 
y=0 
url ="http://www.grupccccco.com.ar/PROcccO/PcccD_ID=3704444/Distrfffdora.aspx" 
html_page = urllib2.urlopen(url) 
soup = BeautifulSoup(html_page) 
x=soup.find_all('div', class_='ppl_product_header') 
print x 

print "good bye" 
+0

「= < or > ....... –

+0

使用'打印x.text' –

回答

0

使用get_text(),你的情況 - print x.get_text()