我知道如果元素具有id或class,那麼如何從網頁中抓取數據。使用Python從網頁中刮掉沒有id或class的元素BeautifulSoup
例如這裏,soup
是一個BeautifulSoup對象。
for item in soup.findAll('a',{"class":"class_name"}):
title = item.string
print(title+"\n")
如果元素沒有id或class,我們該怎麼做?例如,沒有id或class的段落元素。
或者在更糟糕的情況下,如果我們只需要刮取如下所示的純文本會發生什麼?
<body>
<p>YO!</p>
hello world!!
</body>
如何在上述頁面源碼中只打印hello world!!
? 它沒有id或class。
我刪除了你的第二個問題,因爲這是題外話了(因此)。但是,你的意思是'soup.find('body')'或'soup.find_all('body')'? –
我不知道上面這兩個語句的含義。如果你告訴我,我可以回答你的問題。 :) – RaviTej310
啊,很好。然而,關於*除了BeautifulSoup以外,還有哪些其他好的搜索軟件包?*是主要基於觀點的**問題。這是該網站的主題。請**不要問他們**。如果你看看你的問題,你可以看到我的編輯,我刪除了它們。 [這是什麼在這個網站上的主題問題。](http://stackoverflow.com/help/on-topic) –