我希望能夠刮出鏈接列表。由於html的結構方式,我無法直接使用BeautifulSoup。從Python中的href標記中刪除不需要的html
start_list = soup.find_all(href=re.compile('id='))
print(start_list)
[<a href="/movies/?id=actofvalor.htm"><b>Act of Valor</b></a>,
<a href="/movies/?id=actionjackson.htm"><b>Action Jackson</b></a>]
我正在尋找只拉href信息。我正在考慮某種過濾器,我可以將所有粗體代碼放入列表中,然後將其從包含上述信息的另一個列表中過濾出來。
start_list = soup.find_all('a', href=re.compile('id='))
start_list_soup = BeautifulSoup(str(start_list), 'html.parser')
things_to_remove = start_list_soup.find_all('b')
的想法是能夠遍歷things_to_remove和START_LIST刪除其內容全部出現
發佈您想要的輸出。 –