2014-04-11 52 views
0

基本上我是一個web網站的一部分,網站內置CMS,EasySite(擁有超過3000頁)。我想知道是否有工具或任何其他方式掃描每個頁面中的HTML以獲取特定標籤(即style="font-size:10px")。特定HTML標籤的網站掃描儀?

很多人都是複製和粘貼來自MS Word的內容,這明顯也會複製格式。雖然它不會在桌面版網站上顯示,但會顯示在移動設備/平板電腦設備上。所以需要對當前所有頁面進行排序。

+0

它有一個存儲頁面的數據庫嗎?你可以查詢它嗎? – eXplicit

+0

使用CMS,你的內容很可能在數據庫中,所以找到這應該是一個問題。修復它(=剝離這些標籤)可能會變得相當複雜,儘管因爲結束標籤。如果不是在數據庫中,文件上的文本搜索應該做到這一點,在需要修復的時候也有相同的問題。 –

+0

我處於類似的情況,約2500頁。我們使用名爲site的服務來改進其付費服務,但對於網絡治理而言效果不錯。我知道那裏有類似的產品。 – DD0UG

回答

0

我會做到以下幾點:

  1. 鏡像您的網站在您的本地文件系統(例如用wget --mirror http://example.com,見manpage of wget
  2. 上下載的文件工作與工具執行搜索你最喜歡的(Python或grep - 例如grep -rn 'style="font-size:10px"' mirror_directory