2013-06-04 103 views
0

你好我工作的一個IRC bot命令之間的文本抓取來自Twitter蟒蛇beautifulsoup截斷碼標籤

帖子

我使用api.twitter.com列出XML格式的網頁。鳴叫的時間被列爲

<created_at>Tue Jun 04 01:12:59 +0000 2013</created_at> 

我想獲取標籤之間的前10個字符。

我已經試過

time = soup.findAll('created_at')[:10] 

但返回一個錯誤。

回答

3

查找所有將在您的文檔中返回標記列表created_at。當你切片時,你正在切片標籤列表而不是標籤內的文本(我懷疑切片本身會給你一個錯誤,而且,當你提到錯誤時,請說出那個錯誤是什麼!)。

您可以通過執行驗證這一點:

time = soup.findAll('created_at') 
type(time[0]) # returns <class 'bs4.element.Tag'> 

一種可能的方式,你可以怎麼做你想做的:

time = soup.created_at.string[:10] 
+0

謝謝,我能解決這個問題。我沒有意識到我正在切分標籤而不是文本,現在有意義。乾杯。 –