2013-10-31 50 views
0

我想獲得一些信息在一個網站,把它放在一個列表中,並將此列表導出到CSV。 這是該網站的一部分,它重複了好幾次。搜索結果對象內部 - Python,美麗秀

<img src="image.jpg" alt="Aclimação"> 
</a> 
</div> 
Clique na imagem para ampliar 
</div> 
<div class="colInfos"> 
<h4>Aclimação</h4> 
<div class="addressInfo"> 
Rua Muniz de Souza, 1110<br> 
Aclimação - São Paulo - SP<br> 
01534-001<br> 
<br> 
(11) 3208-3418/2639-0173<br> 
<a href="mailto:[email protected]">[email protected]</a><br> 

我想在這個網站上的圖像鏈接每所學校的,名稱(H4),地址(AddressInfo的裏面,分別爲br應該是列表中的一個分離項目)和電子郵件(A HREF郵寄地址:)並導出到s csv文件。這就是我想要的。但是有一個問題,因爲我不知道如何在結果對象'endereco'中搜索,我該怎麼做? 這是我的代碼:

import urllib2 
from BeautifulSoup import BeautifulSoup 


url = urllib2.urlopen("http://www.fisk.com.br/unidades?pais=1&uf=&rg=&cid=&ba=&un=") 
soup = BeautifulSoup(url) 
#nomes = soup.findAll('h4') 

dados = [] 
i = 1 

for endereco in enderecos: 
    text = ''.join(endereco.findAll(???)) **<- how an I search the br's inside this?** 
    dados[i] = text.encode('utf-8').strip() 
    i = i +  

enderecos = soup.findAll('div', attrs={'class': 'colInfos'}) 
+0

什麼是'enderecos'? – aIKid

回答

0

它真的很好。所有你需要做的就是更換

dados = [] 
i = 1 

for endereco in enderecos: 
    text = ''.join(endereco.findAll(text=True)) 
    dados[i] = text.encode('utf-8').strip() 
    i = i +  

enderecos = soup.findAll('div', attrs={'class': 'colInfos'}) 

dados = [] 

enderecos = soup.findAll('div', attrs={'class': 'colInfos'}) 

for endereco in enderecos: 
    text = ''.join(endereco.findAll(text=True)) 
    dados.append(text.encode('utf-8').strip()) 
print dados 
+0

感謝您的回答,但我認爲我不是很清楚。我編輯了我的問題,你能再看一遍嗎?我應該在文本中使用什麼而不是text = True來查找裏面的br標籤? –