我正在處理一些需要我獲取頁面上所有URL的內容。它似乎可以在我測試過的大多數網站上運行,例如microsoft.com,但它只會從google.com返回三個網站。下面是相關的源代碼:獲取頁面上的所有URL Python
import urllib
import time
import re
fwcURL = "http://www.microsoft.com" #URL to read
mylines = urllib.urlopen(fwcURL).readlines()
print "Found URLs:"
time.sleep(1) #Pause execution for a bit
for item in mylines:
if "http://" in item.lower(): #For http
print item[item.index("http://"):].split("'")[0].split('"')[0] # Remove ' and " from the end, for example in href=
if "https://" in item.lower(): #For https
print item[item.index("https://"):].split("'")[0].split('"')[0] # Ditto
如果我的代碼可以改進,或者有更好的方式來做到這一點,請回復。提前致謝!
你試過BeautifulSoup嗎? –
獲取頁面上的所有URL基本上是一個蜘蛛... – gabeio