2012-12-21 77 views
3

如何使用BeautifulSoup提取日期?使用BeautifulSoup提取日期4

+1

您確定您的HTML代碼格式正確嗎?看起來像很多空白......並且最後的關閉標記未正確關閉。複製+粘貼錯誤? –

+0

在結束標記的日期之後它只是太多空格,所以我沒有包含它 – Andy

回答

4

採取這些div的元素,然後拿到三個字符串,並將它們連接成一個字符串:

date = ' '.join([unicode(t) for t in parent.stripped_strings]) 

這將導致Dec 31 Mon

如果您需要操縱日期,則需要將其解析爲datetime.date對象;我強烈建議你使用dateutil external library來做到這一點。但是,由於這一年缺少一年,您的里程可能會有所不同。

+0

看起來OP將不得不拖延某個年份,但除此之外,如果有明確定義的父項(或至少有時候需要可靠地獲取月份和edate類) –

+0

'[]''''''''''''''''''''''因爲Python 2.4(我認爲) – jfs

+1

@MartijnPieters:''.join中的列表是可辯護的:[「連接使數據傳遞兩次,它運行得更快,如果你給它一個列表開始。「](http://stackoverflow.com/a/9143515/190597) – unutbu