有沒有一種乾淨的方式來獲得使用BeautifulSoup的HTML表格的第n列？

說我們看一下第一個表中的一個頁面，所以：有沒有一種乾淨的方式來獲得使用BeautifulSoup的HTML表格的第n列？

table = BeautifulSoup(...).table

行可以與掃描乾淨的for循環：

for row in table: 
    f(row)

但爲獲得一列事情變得一團糟。

我的問題：是否有一種優雅的方式來提取單個列，無論是通過它的位置還是通過其'名稱'（即出現在本列第一行的文本）？

來源

2011-04-03 Benjamin Nitlehoo

lxml比BeautifulSoup快很多倍，所以你可能想要使用它。

from lxml.html import parse 
doc = parse('http://python.org').getroot() 
for row in doc.cssselect('table > tr'): 
    for cell in row.cssselect('td:nth-child(3)'): 
     print cell.text_content()

或者，而不是循環：

rows = [ row for row in doc.cssselect('table > tr') ] 
cells = [ cell.text_content() for cell in rows.cssselect('td:nth-child(3)') ] 
print cells

來源

2011-04-03 20:59:27

有沒有一種乾淨的方式來獲得使用BeautifulSoup的HTML表格的第n列？

回答

相關問題