0
我正在嘗試解決這個問題。 萃取完美地工作,但其結果是:只提取類文本
「的div類=」 ppl_product_header 「」 「H1」 存儲器4千兆DIMM 2133 MTS CL15 「/ H1」, 「/格」
但我只需要「h1」和「」h1「」之間的內容。即僅文本。
from bs4 import BeautifulSoup
import urllib2
import time
y=0
url ="http://www.grupccccco.com.ar/PROcccO/PcccD_ID=3704444/Distrfffdora.aspx"
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
x=soup.find_all('div', class_='ppl_product_header')
print x
print "good bye"
「= < or > ....... –
使用'打印x.text' –