我是新來的網絡刮和python一般,但我有點卡住如何糾正我的功能。我的任務是從一個特定的字母開始刮掉單詞的網站,並返回匹配的單詞列表,最好使用正則表達式。感謝您的時間,下面是我的代碼。Webscrape沒有美麗的湯
import urllib
import re
def webscraping(website):
fhand = urllib.urlopen(website).read()
for line in fhand:
line = fhand.strip()
if line.startswith('h'):
print line
webscraping("https://en.wikipedia.org/wiki/Web_scraping")
爲什麼你不想用美麗的湯? –
我們還沒有學會如何在我的編程課程中使用美麗的湯,我試過的所有資源都使用它 – Mayhem
不要嘗試它並重新發明輪子。 Web刮板將使您的生活比嘗試使用正則表達式來刮擦更容易。如果頁面發生變化,那麼所有的正則表達式將不再提取所需的數據,具體取決於頁面被修改的方式以及您的正則表達式不再提取您需要的值。 – serk