2015-06-26 94 views
0

我完全不熟悉網絡抓取,所以任何參考網站都會很棒。我對於如何獲得實際數據有些困惑。當我打印(TheText)時,我得到了一堆html代碼(應該是正確的)。我如何確切地從中獲得價值?我是否必須使用正則表達式來獲取實際的數字數據?如何在網頁抓取時獲取數值數據?

def getData(): 
    request = urllib.request.Request("http://www.weather.com/weather/5day/l/USGA0028:1:US") 
    response = urllib.request.urlopen(request) 
    the_page = response.read() 
    theText = the_page.decode() 
    print(theText) 

回答

5

看看BeautifulSoup。它允許你通過他們的ID或標籤獲取元素。這對於基本的抓取非常有用。
你可以用響應文本(html頁面)調用美味的湯,然後你可以調用bs方法

+0

謝謝你的網站!然而,我正在做一個家庭作業,需要使用正則表達式。這就是爲什麼我很難找到一個網站來解釋基礎知識。 – Shan

+2

這應該有助於python https://docs.python.org/2/library/re.html 這對於一般的正則表達式http://regexone.com/ –

+0

非常感謝! – Shan