2010-07-15 75 views
2

我用這個方法提取HREF從屬性與BeatifulSoup

allcity = dom.body.findAll(attrs={'id' : re.compile("\d{1,2}")}) 

返回像這樣的列表:

[<a onmousedown="return c({'fm':'as','F':'77B717EA','F1':'9D73F1E4','F2':'4CA6DE6B','F3':'54E5243F','T':'1279189248','title':this.innerHTML,'url':this.href,'p1':1,'y':'B2D76EFF'})" href="http://www.ylyd.com/showurl.asp?id=6182" target="_blank"><font size="3">擄虜驢碌路驢碌脴虜煤脨脜脧壟脥酶 隆煤 脢脦脝路脦露脕盧陸脫</font></a>, 
<a href="http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f728629c86027fa3c215cc791a1b1a23a4fb7935107380843e7000db120afdf14076340920a3de95c81cd2ace52f38fb5023716c914b19c46ea8dc4755d650e34d99aa0ee6cae74596b9a1d6c85523dd58716df7f49c5b7003c065e76445&amp;p=8b2a9403c0934eaf5abfc8385864&amp;user=baidu" target="_blank" class="m">擄脵露脠驢矛脮脮</a>] 

我如何提取這HREF?

http://www.ylyd.com/showurl.asp?id=6182 

謝謝。 :)

+0

你的問題看起來壞了。我認爲''a href =「#####」/ a「'的意思是看起來像'',但我不確定。此外,使用四個縮進空格來描述代碼。 – 2010-07-15 10:12:32

+0

謝謝但Stackoverflow無法編寫HTML代碼 – 2010-07-15 10:30:14

+0

您對findAll的調用返回了兩個結果 - 兩個錨標籤。您已要求從這些標記中提取一個href屬性。爲什麼是第一個而不是第二個? (你想要什麼過濾?) – Oddthinking 2011-02-24 01:22:58

回答

0

可以使用

for a in dom.body.findAll(attrs={'id' : re.compile("\d{1,2}")}, href=True): 
    a['href']