2008-09-16 16 views

回答

1

取決於你想要做什麼樣的處理。您可以告訴Tidy生成XHTML,這是一種XML,這意味着您可以在結果中使用所有常用的XML工具,如XSLT和XQuery。

如果你要處理他們在Microsoft Excel,那麼你應該能夠切片表與HTML,並把它放在一個文件,然後打開該文件在Excel中:它可以轉化HTML表中一個電子表格頁面。然後,您可以將其另存爲CSV或Excel工作簿等(您甚至可以在Web服務器上使用此工具 - 返回一個HTML表格,但將Content-Type標題設置爲application/ms-vnd.excel:將打開Excel並導入表格並將其轉換爲電子表格)。

如果你想CSV在喂到一個數據庫,那麼你可以通過Excel作爲之前去,或者,如果你想自動執行的過程,你可以寫一個使用的導航XML的API程序你選擇迭代表格行並將它們保存爲CSV。 Python的Elementtree和CSV模塊將使這非常容易。

2

我已經使用BeautifulSoup在過去這樣的事情取得了巨大的成功。

1

在審查了建議後,我使用HtmlUnit清盤。

用的HtmlUnit,我能夠自定義的Java代碼來打開該文件夾中的每個HTML文件,瀏覽到該表標籤, 查詢每列的內容,並提取我需要創建一個CSV文件中的數據。

相關問題