我想用BeautifulSoup從html文檔中獲取一些文本。對於我來說,這是一個非常相關的例子,它引發了一個奇怪而有趣的結果:在某個點之後,湯裏充滿了文本中的額外空間(一個空格將每個字母與下一個字母分開)。我試圖搜索網絡,以找到一個原因,但我只遇到了一些關於相反錯誤的消息(根本沒有空格)。BeautifulSoup返回意外的額外空間
你有什麼建議或暗示它爲什麼發生,以及如何解決這個問題?
這是我創造了非常基本的代碼:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
這是從結果中的線,線哪裏這個問題開始出現:
值= \」 Giuseppe Labbate ogm?non vorremmo nuovi uccelli chiamati lontre \「> < input onmouseover = \」Tip('< cen terclass = \''title _ video \''> <b> G iuseppelabbateo g m? N 2 OÑvöR Ré米M O對N個U 0伏I U C C E的L-升I C H I一米的T I L O,N t個řË<
你爲什麼要印刷'ultrasoup'?它不應該是'湯'嗎? – svineet
與其他網站的問題相同。我仍然試圖找出這是BeautifulSoup還是基礎lxml的問題。該軟件在32位-python上運行時沒有問題,並且在64位時失敗。 – Matthias
我爲'ultraoup'道歉,只是一個小錯誤。當然,正確的代碼是'打印湯' –