2012-03-03 49 views
0

我想知道是否有方法從HTML表格中提取數據並僅使用HTMLParser將其解析爲字典。由於某種原因,我無法做到這些。解析HTML表格到Python中的列表W/o BeautifulSoup

+1

爲什麼你不能使用BeautifulSoup? – Blender 2012-03-03 20:02:22

+2

你有什麼試過(顯示一些代碼)?什麼不起作用(給出一個示例輸入,你期望什麼作爲輸出,你會得到什麼)? – jfs 2012-03-03 20:06:52

回答

1

您可以使用lxml來解析網頁。 http://lxml.de/

你可以湊一個網頁與

from lxml.html import parse 
    site = parse('http://java.sun.com') 

這是怎麼回是lxml的元素樹:http://lxml.de/api.html

然後,您可以使用XPath來獲取HTML內容(HTTP:// WWW。 w3schools.com/xpath/):

tableData = site.xpath('//table//td[@id="someTdID"]') 

LXML是一個非常強大的庫,並廣泛用於抽取數據。然後,您可以將這些數據提供給python字典/列表或按照您的喜好進行處理。

+0

我想只使用HTMLParser來做到這一點..可能嗎? – 2012-03-05 06:23:50