我試圖用數字解析'https://projecteuler.net/problem=8'的中間位。因爲它沒有一個單獨的類通過將其選中,我已經使用用BeautifulSoup解析HTML並且沒有類(只是段落)
r = requests.get('https://projecteuler.net/problem=8')
data = r.text
soup = BeautifulSoup(data, "lxml")
[para1, para2, para3] = (soup.find_all('p'))
爲了區分段落,但此留下了很多在那裏額外的垃圾(<p> and <br>
)的。有沒有清除所有的命令?有沒有更好的命令來進行拆分比我目前使用?從來沒有真正做過很多網頁爬行的Python ...
的DOCTYPE是'html',你會想可能使用''html.parser'',而不是' 「LXML」'。另外,一旦你有這個數字表,你的理想輸出是什麼? (NumPy數組,還是隻是想打印塊?) –