2011-07-06 196 views
3

有一個網站可以在html表格中顯示大量數據。他們已經分頁數據,因此大約有500頁。從html頁面創建csv

在Windows中獲取這些表格中的數據並將其下載爲CSV格式的最便捷的方法是什麼?

基本上我需要編寫一個腳本,做這樣的事情,但overkilling寫在C#中,我尋找其他的解決方案,人們的網絡體驗使用:

for(i=1 to 500) 
    load page from http://x/page_i.html; 
    parse the source and get the data in table with id='data' 
    save results in csv 

謝謝!

回答

0

我在做屏幕抓取應用程序一次,發現BeautifulSoup非常有用。您可以輕鬆地將其插入Python腳本中,並使用您正在查找的特定標識解析所有標籤。

0

最簡單的非C#的方式我能想到的就是用Wget下載頁面,然後運行HTMLTidy將其轉換爲XML/XHTML,然後轉換生成的XML到CSV使用XSLT(與MSXSL.exe運行)

您將不得不編寫一些簡單的批處理文件和帶有基本XPath選擇器的XSLT。

如果您覺得在C#中執行該操作會更容易,則可以使用SgmlReader來讀取HTML DOM並執行XPath查詢以提取數據。它不應該佔用大約20行代碼。