我想從一個HTML文件中像這樣獲得div
標籤位於數據(姓名,城市和地址):如何使用美化功能從特定類別的html標記中獲取數據?
<div class="mainInfoWrapper">
<h4 itemprop="name">name</h4>
<div>
<a href="/Wiki/Province/Tehran"></a>
city
<a href="/Wiki/City/Tehran"></a>
Address
</div>
</div>
我不知道我怎樣才能得到我想要在特定的標籤數據。 顯然我使用python與beautifulsoup
庫。
>>> s="""<div class="mainInfoWrapper">
... <h4 itemprop="name">name</h4>
... <div>
... <a href="/Wiki/Province/Tehran"></a>
... city
... <a href="/Wiki/City/Tehran"></a>
... Address
... </div>
... </div>"""
>>>
>>> import lxml.html
>>> document = lxml.html.document_fromstring(s)
>>> print document.text_content().split()
['name', 'city', 'Address']
而且隨着BeautifulSoup
,讓您的標籤之間的文字:
我得到的名字,但做這樣一些事情: ** name_b = soup1.find(「H4」) 兒童在name_b.children 名=小孩** H4僅在該頁面中使用一次,但有很多div標籤沒有特殊的ID,我不知道我有多少訪問它們。 – Mehdi
你可以展示多個'div'是如何構造的,它會影響答案。 –
你可以看到我在這裏抓取的網頁: http://goo.gl/sCXNp2 – Mehdi