2016-02-11 28 views
0

我需要讀取模式的URL內容和搜索/正則表達式。例如在corrupt_files.jsp中,我需要搜索任何關鍵字「auction_log.DATE」(其中DATE是昨天)解析要搜索的URL模式

我該如何實現它?

下面是我走到這一步:

from urllib import urlopen 
import re 
import time 
import datetime 
from datetime import date, timedelta 
yesterday = date.today() - timedelta(1) 

DATE= yesterday.strftime('%Y-%m-%d') 

html = urlopen("http://url.com/corrupt_files.jsp").read() 

for line in html.split('<tr'): 
    re.search('auction_log.DATE',line) 
+0

你確實知道你[不應該用正則表達式解析HTML](http://stackoverflow.com/a/1732454/2308683),對不對? –

+0

並以''auction_log。{}'.format(DATE)'開頭,以獲得正確的字符串 –

+0

@ cricket_007是絕對正確的。使用HTML解析器來解析HTML。 – user615501

回答

0

您可以使用BeautifulSoupScrapy提取您的內容。例如與BS:

from bs4 import BeautifulSoup 
import urllib 
r = urllib.urlopen('corrupt_files.jsp').read() 
soup = BeautifulSoup(r) 
soup.body.findAll(text='auction_log.DATE')