使用TIDY清理完整個HTML文件的文件夾後,如何提取表格內容以供進一步處理?從一組HTML文件中提取表格內容的最佳方式是什麼?
回答
取決於你想要做什麼樣的處理。您可以告訴Tidy生成XHTML,這是一種XML,這意味着您可以在結果中使用所有常用的XML工具,如XSLT和XQuery。
如果你要處理他們在Microsoft Excel,那麼你應該能夠切片表與HTML,並把它放在一個文件,然後打開該文件在Excel中:它可以轉化HTML表中一個電子表格頁面。然後,您可以將其另存爲CSV或Excel工作簿等(您甚至可以在Web服務器上使用此工具 - 返回一個HTML表格,但將Content-Type
標題設置爲application/ms-vnd.excel
:將打開Excel並導入表格並將其轉換爲電子表格)。
如果你想CSV在喂到一個數據庫,那麼你可以通過Excel作爲之前去,或者,如果你想自動執行的過程,你可以寫一個使用的導航XML的API程序你選擇迭代表格行並將它們保存爲CSV。 Python的Elementtree和CSV模塊將使這非常容易。
我已經使用BeautifulSoup在過去這樣的事情取得了巨大的成功。
在.NET中,您可以使用HTMLAgilityPack。
有關更多信息,請參閱StackOverflow上的此previous question。
如果你想從HTML標記中提取內容,你應該使用某種類型的HTML解析器。爲此有很多在那裏,這裏有兩個可能適合您的需要:
http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/
在審查了建議後,我使用HtmlUnit清盤。
用的HtmlUnit,我能夠自定義的Java代碼來打開該文件夾中的每個HTML文件,瀏覽到該表標籤, 查詢每列的內容,並提取我需要創建一個CSV文件中的數據。
迭代通過文字,並使用正則表達式:)
- 1. 從Android中的html文件獲取內容的最佳方式
- 2. 從div獲取內容的最佳方式是什麼?
- 3. 什麼是從表格中讀取的最佳方式?
- 4. 從一條線中提取字符串價格的最佳方式是什麼?
- 5. Javascript中刪除html表格的最佳方式是什麼?
- 6. 什麼是使用java提取zip文件的最佳方式
- 7. 什麼是從Python中提取行的最佳方式
- 8. 從git倉庫中提取樹的最佳方式是什麼?
- 9. 抓取網站數據(內容)的最佳方式是什麼?
- 10. 什麼是從電影文件中提取隱藏字幕的最佳方式?
- 11. 保存/加載數組內容到文件的最佳方式是什麼?
- 12. 過濾數組列表內容的最佳方法是什麼?
- 13. 從配置文件獲取值的最佳方式是什麼?
- 14. 什麼是從目錄獲取csv文件的最佳方式?
- 15. 保存表格中表格的最佳方式是什麼?
- 16. 從wiki表格中提取數據以及從該表格到JSON的鏈接的最佳方式是什麼?
- 17. 在內存中格式化SyntaxTree的最佳方式是什麼?
- 18. 什麼是用JavaScript插入內容到HTML文檔的最佳方式
- 19. 在HTML表單提交中發佈有序列表的內容的最佳方式是什麼?
- 20. 在AJAX TabContainer中包含內容的最佳方式是什麼?
- 21. 從靜態表單中提取填充數據的最佳方式是什麼?
- 22. 什麼是從網格行創建列表的最佳方式
- 23. 使用Java構建HTML文件的最佳方式是什麼?
- 24. 在Obj-c中組織一組的最佳方式是什麼?
- 25. 從嵌入式資源中讀取XML文件的最佳方式是什麼?
- 26. 在C#中讀取/寫入數組內容到二進制文件的最佳方式是什麼?
- 27. 顯示/瀏覽內容繁多的XML文件的最佳方式是什麼?
- 28. 從單詞組中獲取電子郵件ID的最佳方式是什麼?
- 29. 什麼是創建一個隨機數HTML表格的最佳方式
- 30. 從文件中提取版本字符串的最佳方法是什麼?