所以LXML有一個非常手功能:make_links_absolute:Python的BeautifulSoup相當於限於lxml make_links_absolute
doc = lxml.html.fromstring(some_html_page)
doc.make_links_absolute(url_for_some_html_page)
和文檔的所有鏈接現在是絕對的。有一個簡單的等同於BeautifulSoup還是我只需要通過向裏urlparse通過它,規範它:
soup = BeautifulSoup(some_html_page)
for tag in soup.findAll('a', href=True):
url_data = urlparse(tag['href'])
if url_data[0] == "":
full_url = url_for_some_html_page + test_url
我不熟悉lxml,但URL的規範化並不那麼容易。你真的想把它們歸一化還是隻把它們變成絕對的? – 2010-12-17 08:56:25