使用Python和BeautifulSoup解析表格

我正嘗試使用Python和BeautifulSoup訪問特定td標籤中的內容。我可以得到滿足條件的第一個td標籤（使用find），或者全部使用findAll。使用Python和BeautifulSoup解析表格

現在，我可以使用findAll，全部獲取並獲取我想要的內容，但這似乎效率低下（即使我對搜索設置了限制）。無論如何去符合我想要的標準的某個td標籤？說第三個，還是第十個？

這裏是我到目前爲止的代碼：

from __future__ import division 
from __future__ import unicode_literals 
from __future__ import print_function 
from mechanize import Browser 
from BeautifulSoup import BeautifulSoup 

br = Browser() 
url = "http://finance.yahoo.com/q/ks?s=goog+Key+Statistics" 
page = br.open(url) 
html = page.read() 
soup = BeautifulSoup(html) 
td = soup.findAll("td", {'class': 'yfnc_tablehead1'}) 

for x in range(len(td)): 
    var1 = td[x] 
    var2 = var1.contents[0] 
    print(var2)

來源

2011-06-21 Andrew Alexander

find和findAll非常靈活，在BeautifulSoup.findAll文檔說

5。您可以傳入一個可調用對象，該對象只需將一個Tag對象作爲其唯一的 a參數，並返回一個布爾值。每個查找所有遇到的標記對象將被傳遞到此對象中，並且如果調用返回True，則則認爲標記被認爲匹配。

來源

2011-06-21 05:38:38 cerberos

Hrm，這可能會讓我做我需要做的事情。下班後我會做一些測試。 –

我唯一發現的問題是，它是具有相同信息的相同標籤。除非有能力檢查一個孩子，也許。 –

是的，它是相同的標籤，但您可以在決定是否返回true或false之前檢查子標籤，從而爲您提供所需的所有標籤。 – cerberos

反正是有去有一定的TD 標籤會議上，我想要的標準是什麼？說第三，還是第十？？

嗯......

all_tds = [td for td in soup.findAll("td", {'class': 'yfnc_tablehead1'})] 

print all_tds[3]

...有沒有其他辦法..

來源

2011-06-21 04:08:32

嘆了口氣，這就是我的想法 - 我希望我錯了！甚至沒有使用find的方法？我只希望有一種方法可以找到標籤的特定實例。 –

all_tds = [td for td在td = soup.findAll（「td」，{'class'：'yfnc_tablehead1'}）] 此外，該行不起作用。 –

嗯，固定 - 你應該能夠自己發現和修復一個錯誤....盲目複製和粘貼代碼不是一個好主意，不會想到你在做什麼 –

使用Python和BeautifulSoup解析表格

回答

相關問題