2015-07-19 76 views
2

很簡單的問題,我希望:沒有人知道一個工具,將有效地颳去與微軟矩陣建網站?我可以用Python語言編寫的代碼,但它會帶我這樣的時間比我想我要獻給即因爲矩陣產生非常糟糕和醜陋的HTML中的任務。微軟Web Matrix的

我已經試過網絡哈維,氦刮板,和我試過網站刮板插件的Chrome。 WebHarvey在HTML上ch咽,無法加載後續頁面。 Helium Scraper能夠從一個細節頁面移動到另一個細節頁面(後面的鏈接被遵循),但是來自細節頁面的內容沒有被取消。 Chrome插件網絡抓取工具無法導航鏈接,彈出窗口顯示錯誤頁面。我的直覺告訴我,這與獨特的ASP.net事情有關,但我可能是錯的。

任何指針或建議理解。

+1

你是一個很好的問題。請考慮添加有關您遇到的錯誤的更多詳細信息。建議:Google「用於asp.net頁面的屏幕景觀工具」。請讓我們知道你找到了什麼! – paulsm4

回答

2

你知道有兩個完全不同的版本的Microsoft Web Matrix的權利?有從2003年開始的;我不知道它的html是什麼樣子。有一個從2011年到目前使用剃刀cshtml源文件來產生它的HTML。在2011+之一,你手寫html;沒有拖放,所以不太可能會從站點到站點獲得一致的html。

+0

這我不知道。 HTML非常可怕並且不一致。這是一個有趣的例子: 標題公司: 土地標題保證 <跨度類= 「標籤」>財務條款: 現金,常規 什麼給我帶來麻煩是看似隨機形成的HTML我因爲提取數據是不可能的。 –

+1

當前版本的webMatrix不生成類,因此可能全部來自舊版本。它看起來讓人想起使用Word來生成HTML。 – Knox