這是從網站的源代碼佈局:BS4如何在不使用.text的情況下獲取文本?
<div class="address">
<a href="https://website.ca/classifieds/59-barclay-street/">
59 Some Street<br />City, Zone 1
</a>
</div>
我想獲得的街道號碼,路線,以及城市地理編碼谷歌。如果我這樣做
>>>article.find('div', {'class': 'address'}).text
'59 Some StreetCity, Zone 1'
它帶走了<br />
,我離開了,沒有辦法從分裂城市的航線。如果我做str().replace('<br />',', ')
那麼我必須以某種方式將其再次轉換爲之前的任何類型,因此我可以使用.text
來獲取<a href>
之間的實際文本,效率很低。我想使用.text
用於獲取實際文本的功能,但沒有刪除<br>
內容的功能。我在env找不到一個名爲BeautifulSoup.py
的文件,所以我正在查看GitHub上的BeautifulSoup源代碼,並且在那裏我找不到def text
,我不知道在哪裏可以看到。
更新:
articles = page_soup.find('h2', text='Ads').find_next_siblings('article')
for article in articles:
link = article.find('a')
br = link.find('br')
ad_address = br.previous_sibling.strip() + ', ' + br.next_sibling.strip().partition(', Zone ')[0]
#ad_address = link.br.replace_with(', ').get_text().strip().partition(', Zone ')
您可以用'article.find( '格',{ '類': '地址'})。string' –
這並沒有做任何事情,並打印爲「無」 – dtgq