解析HTML表格到Python中的列表W/o BeautifulSoup

我想知道是否有方法從HTML表格中提取數據並僅使用HTMLParser將其解析爲字典。由於某種原因，我無法做到這些。解析HTML表格到Python中的列表W/o BeautifulSoup

爲什麼你不能使用BeautifulSoup？ – Blender 2012-03-03 20:02:22

你有什麼試過（顯示一些代碼）？什麼不起作用（給出一個示例輸入，你期望什麼作爲輸出，你會得到什麼）？ – jfs 2012-03-03 20:06:52

您可以使用lxml來解析網頁。 http://lxml.de/

你可以湊一個網頁與

from lxml.html import parse 
    site = parse('http://java.sun.com')

這是怎麼回是lxml的元素樹：http://lxml.de/api.html

然後，您可以使用XPath來獲取HTML內容（HTTP：// WWW。 w3schools.com/xpath/）：

tableData = site.xpath('//table//td[@id="someTdID"]')

LXML是一個非常強大的庫，並廣泛用於抽取數據。然後，您可以將這些數據提供給python字典/列表或按照您的喜好進行處理。

2012-03-04 03:11:10 dangerChihuahua007

我想只使用HTMLParser來做到這一點..可能嗎？ – 2012-03-05 06:23:50

回答