2014-12-18 47 views
0

我是Python編程新手。在提出申請的同時,我遇到了這個問題。python中的URL解析問題

我解析URL使用urllib python庫。我想將任何相關的網址轉換爲相應的絕對網址。我以隨機方式獲取相對和絕對URL,並且它們可能不在同一個域中。現在,我如何存儲最後一次已知的絕對網址,以便從中提取netloc並將其附加到相對url?我應該將最後一個已知的絕對URL保存在文本文件中嗎?或者是否有更好的選擇來解決這個問題?

+0

你從哪裏得到的網址?如果你從網絡上獲得他們,那麼你必須擁有絕對的網址,不是嗎? –

+0

是的,我從網站獲取網址,但我也試圖從可用的網址中提取網址...這給了我絕對以及相對的網址。 – hnvasa

+0

我sitll不明白你的問題。難道你不能在'BeautifulSoup'(urlopen(base_url))中做''for a'。find_all('a'):url = urllib.basejoin(base_url,a ['href'])'? –

回答

0

現在我該如何存儲最後一次已知的絕對url,從中提取netloc 並將其附加到相對url?我應該將最後一次已知的 絕對URL保存在文本文件中嗎?

你認爲這是什麼錯誤?似乎對我有意義...(取決於上下文,顯然)