我試圖消除像我的HTML文件,該文件是由BeautifulSoup下載<h2>
和<div class=...>
風格標籤某些標記。我想保留標籤包含的內容(如文本) 但是,這似乎並不奏效。
我曾嘗試
for url in urls:
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.content, 'html.parser')
table = soup.find("div", {"class": "product_specifications bottom_l js_readmore_content"})
print "<hr style='border-width:5px;'>"
for style in table.find_all('style'):
if 'style' in style.attrs:
del style.attrs['style']
print table
的url我試圖與工作
Python HTML parsing with beautiful soup and filtering stop words
Remove class attribute from HTML using Python and lxml
你還沒有解釋什麼不與當前解決方案的工作。 – Veedrac 2014-10-07 10:17:43
它的stil風格是其原始頁面。 – user3671459 2014-10-07 11:26:05