2016-01-16 67 views
0

使用下面的簡單代碼,我遇到了以下問題:爲什麼Beautiful Soup只返回文件名而不是完整的鏈接地址?爲什麼美麗的湯返回文件名而不是完整的鏈接?

from bs4 import BeautifulSoup 
import urllib2 
url = 'http://www.gks.ru/bgd/free/B00_25/IssWWW.exe/Stg/d000/I000650R.HTM' 
data = urllib2.urlopen(url).read() 
page = BeautifulSoup(data,'lxml') 
for link in page.findAll('a'): 
     l = link.get('href') 
     print l 

所有我得到的輸出:

I000660R.HTM 
I000670R.HTM 
I000680R.HTM 
I000690R.HTM 
I000700R.HTM 
I000706R.HTM 
I000707R.HTM 
I000708R.HTM 
I000709R.HTM 
000710.HTM 
000711.HTM 
000712.HTM 
000713.HTM 
000714.HTM 
000715.HTM 
+1

大概是因爲該頁面上的href鏈接都是相對的。 – jonrsharpe

回答

0

問題解決了,給我結合一個URL的根輸出環節的相對性。謝謝。