我試圖從該鏈接的特定文本:刮使用Python和BeautifulSoup的跨度沒有返回
http://www1.folha.uol.com.br/fsp/mercado/index-20121030.shtml
我寫了這個功能來查找和抽取一段文字:
def manchete_11112011_30102012(b):
soup = make_soup(b)
data = [span.string for span in soup.find("font")]
noticias = [b.text for b in soup.findAll("a")]
return {"noticias": noticias,
"data": data}
好的。我的問題是與「數據」線。運行時它什麼都不返回。當我寫「span.string」它返回「[無]」,當我寫「span.text」它返回「[U」]」
下面是HTML代碼我在找我需要內部<span id="spanLongDate">
文本內容:?
<<td width="430" align="right"><font size="1"><span id="spanLongDate">São Paulo, terça-feira, 30 de outubro de 2012</span></font><img src="images/mercado.gif" hspace="10" alt="Mercado"></td>
是否有任何其他的方式,我可以提取文本我的意思是,我寫的代碼錯了,或者是文本格式不兼容,? 「[u」]「是什麼意思?
這個標籤'td'似乎在引用的HTML代碼的開頭有兩個'<''。 – Berci
好吧,所以,我想你的問題可能是命名變量'span'不會使它與span標籤本身匹配。 – Berci
也許這就是問題,@Berci。我不知道如何更準確,因爲這個「跨度」沒有階級。我如何在我的代碼中指定此id =「spanLongDate」?謝謝。 –