2012-07-14 68 views
1

什麼是機械化後續鏈接(br.follow_link)位於某個div內最pythonic方式?我知道如何在BeautifulSoup的幫助下做到這一點,但是有沒有一種方法可以用機械化來實現?機械化:按照鏈接內部的鏈接

樣品格:

<div id="blah_links"> 
<a href="LINK1" class="active">1</a> | 
<a href="LINK2">2</a> | 
<a href="LINK3">3</a> | 
<a href="LINK4">NEXT</a> 
</div> 

回答

1

我最近遇到了類似的問題,這裏是我做過什麼

url = "www.somewhere.com" 
br = mechanize.Browser() 
br.open(url) 

encoded_data = UnicodeDammit(br.response().read(),isHTML=True).unicode 
parser = lxml_html.fromstring(encoded_data) 

soup_xpath = "//div[@id='BODYCON']//a/@href" 
valid_links = soup.xpath(soup_xpath) 
links = [ link for link if link.url in valid_links ] 
-1

在這裏,你可以找到這個問題也許是解決方法:

http://wwwsearch.sourceforge.net/mechanize/

+0

鏈接已損壞。 – sscirrus 2015-12-15 23:38:51

+0

鏈接重新打開,但不是隻發佈一個鏈接,你應該考慮給出一個具體的解決方案 – Murmel 2016-09-28 09:12:42