我已經開始學習如何使用urllib和beautifulsoup從網站上刮取信息。我想抓取這個頁面中的所有文本(在代碼中)並將其放入一個文本文件中。從美麗的湯汲取信息並將其放入文本文件?
import urllib
from bs4 import BeautifulSoup as Soup
base_url = "http://www.galactanet.com/oneoff/theegg_mod.html"
url = (base_url)
soup = Soup(urllib.urlopen(url))
print(soup.get_text())
當我運行這一點,抓住文本雖然它與所有的字母之間的空格輸出,並仍然顯示我的HTML,不知道爲什麼,雖然。
i n ' > Y u p . B u t d o n t f e e
像這樣,任何想法的?
另外我會怎麼做這個信息到我的文本文件?
(使用beautifulsoup4和運行Ubuntu 12.04和Python 2.7)
謝謝:)
謝謝,效果很好:) – RetroCoNoR
非常好 - 很高興它解決了! – David