我是網頁抓取領域的絕對新手,現在我想從網頁中提取可見文本。我發現了一塊碼在線:刮可見文本
import urllib2
from bs4 import BeautifulSoup
url = "http://www.espncricinfo.com/"
web_page = urllib2.urlopen(url)
soup = BeautifulSoup(url , "lxml")
print (soup.prettify())
爲了上面的代碼,我得到以下結果:
/usr/local/lib/python2.7/site-packages/bs4/__init__.py:282: UserWarning: "http://www.espncricinfo.com/" looks like a URL. Beautiful Soup is not an HTTP client. You should probably use an HTTP client like requests to get the document behind the URL, and feed that document to Beautiful Soup.
' that document to Beautiful Soup.' % decoded_markup
<html>
<body>
<p>
http://www.espncricinfo.com/
</p>
</body>
</html>
反正我能得到一個更具體的結果,什麼錯與代碼發生。抱歉無言以對。
你也許可以讀取出錯?我們不是在這裏以更易讀的格式爲您提供信息 – Natecat
也就是說您提取可見文本**,您可以舉一個網站的例子,以及可以提取什麼樣的文本。 –
對不起!這基本上是一個用戶警告,其中指出我已經提供了一個URL,我可能應該使用HTTP客戶端的美麗的湯。美麗的湯只會接受URL後面的文檔。 –