解析要搜索的URL模式

我需要讀取模式的URL內容和搜索/正則表達式。例如在corrupt_files.jsp中，我需要搜索任何關鍵字「auction_log.DATE」（其中DATE是昨天）解析要搜索的URL模式

我該如何實現它？

下面是我走到這一步：

from urllib import urlopen 
import re 
import time 
import datetime 
from datetime import date, timedelta 
yesterday = date.today() - timedelta(1) 

DATE= yesterday.strftime('%Y-%m-%d') 

html = urlopen("http://url.com/corrupt_files.jsp").read() 

for line in html.split('<tr'): 
    re.search('auction_log.DATE',line)

來源

2016-02-11 Rio

你確實知道你[不應該用正則表達式解析HTML]（http://stackoverflow.com/a/1732454/2308683），對不對？ –

並以''auction_log。{}'.format（DATE）'開頭，以獲得正確的字符串 –

@ cricket_007是絕對正確的。使用HTML解析器來解析HTML。 – user615501

您可以使用BeautifulSoup或Scrapy提取您的內容。例如與BS：

from bs4 import BeautifulSoup 
import urllib 
r = urllib.urlopen('corrupt_files.jsp').read() 
soup = BeautifulSoup(r) 
soup.body.findAll(text='auction_log.DATE')

來源

2016-02-11 15:43:47 molivier

解析要搜索的URL模式

回答

相關問題