從html頁面創建csv

有一個網站可以在html表格中顯示大量數據。他們已經分頁數據，因此大約有500頁。從html頁面創建csv

在Windows中獲取這些表格中的數據並將其下載爲CSV格式的最便捷的方法是什麼？

基本上我需要編寫一個腳本，做這樣的事情，但overkilling寫在C＃中，我尋找其他的解決方案，人們的網絡體驗使用：

for(i=1 to 500) 
    load page from http://x/page_i.html; 
    parse the source and get the data in table with id='data' 
    save results in csv

謝謝！

2011-07-06 DDD

我在做屏幕抓取應用程序一次，發現BeautifulSoup非常有用。您可以輕鬆地將其插入Python腳本中，並使用您正在查找的特定標識解析所有標籤。

2011-07-06 21:03:39 aardvarkk

最簡單的非C＃的方式我能想到的就是用Wget下載頁面，然後運行HTMLTidy將其轉換爲XML/XHTML，然後轉換生成的XML到CSV使用XSLT（與MSXSL.exe運行）

您將不得不編寫一些簡單的批處理文件和帶有基本XPath選擇器的XSLT。

如果您覺得在C＃中執行該操作會更容易，則可以使用SgmlReader來讀取HTML DOM並執行XPath查詢以提取數據。它不應該佔用大約20行代碼。

2011-07-06 21:15:23 dacris

回答