如何在網頁抓取時獲取數值數據？

我完全不熟悉網絡抓取，所以任何參考網站都會很棒。我對於如何獲得實際數據有些困惑。當我打印（TheText）時，我得到了一堆html代碼（應該是正確的）。我如何確切地從中獲得價值？我是否必須使用正則表達式來獲取實際的數字數據？如何在網頁抓取時獲取數值數據？

def getData(): 
    request = urllib.request.Request("http://www.weather.com/weather/5day/l/USGA0028:1:US") 
    response = urllib.request.urlopen(request) 
    the_page = response.read() 
    theText = the_page.decode() 
    print(theText)

來源

2015-06-26 Shan

看看BeautifulSoup。它允許你通過他們的ID或標籤獲取元素。這對於基本的抓取非常有用。
你可以用響應文本（html頁面）調用美味的湯，然後你可以調用bs方法

來源

2015-06-26 22:05:54

謝謝你的網站！然而，我正在做一個家庭作業，需要使用正則表達式。這就是爲什麼我很難找到一個網站來解釋基礎知識。 – Shan

這應該有助於python https://docs.python.org/2/library/re.html 這對於一般的正則表達式http://regexone.com/ –

非常感謝！ – Shan

不，你shouldn't use RegExp for HTML。取而代之。看看BeatifulSoup4

來源

2015-06-26 22:06:34 plasmid0h

謝謝！然而，我正在做一個家庭作業，需要使用正則表達式。這就是爲什麼我很難找到一個網站來解釋基礎知識。 – Shan

如何在網頁抓取時獲取數值數據？

回答

相關問題