我給下面的HTML:提取HREF從HTML
<A HREF="Acaryochloris_marina_MBIC11017_uid58167/"><IMG border="0" SRC="SOMETHING" ALT="[DIR] "></A> <A HREF="Acaryochloris_marina_MBIC11017_uid58167/">Acaryochloris_marina_MBIC11017_></A> Jun 12 2013
<A HREF="Acetobacter_pasteurianus_386B_uid214433/"><IMG border="0" SRC="SOMETHING" ALT="[DIR] "></A> <A HREF="Acetobacter_pasteurianus_386B_uid214433/">Acetobacter_pasteurianus_386B_u></A> Aug 8 2013
還有更多... 我想從這裏提取HREF。
這裏是我的Python腳本:(page_source包含HTML)
soup = BeautifulSoup(page_source)
links = soup.find_all('a',attrs={'href': re.compile("^http://")})
for tag in links:
link = tag.get('href',None)
if link != None:
print link
但是,這可防止返回以下錯誤:
links = soup.find_all('A',attrs={'HREF': re.compile("^http://")})
TypeError: 'NoneType' object is not callable
我做的findAll,腳本運行,但沒有輸出打印在控制檯.. – user3739969
嘿,我剛剛工作了。非常感謝! – user3739969