0
基本上我是一個web網站的一部分,網站內置CMS,EasySite(擁有超過3000頁)。我想知道是否有工具或任何其他方式掃描每個頁面中的HTML以獲取特定標籤(即style="font-size:10px"
)。特定HTML標籤的網站掃描儀?
很多人都是複製和粘貼來自MS Word的內容,這明顯也會複製格式。雖然它不會在桌面版網站上顯示,但會顯示在移動設備/平板電腦設備上。所以需要對當前所有頁面進行排序。
基本上我是一個web網站的一部分,網站內置CMS,EasySite(擁有超過3000頁)。我想知道是否有工具或任何其他方式掃描每個頁面中的HTML以獲取特定標籤(即style="font-size:10px"
)。特定HTML標籤的網站掃描儀?
很多人都是複製和粘貼來自MS Word的內容,這明顯也會複製格式。雖然它不會在桌面版網站上顯示,但會顯示在移動設備/平板電腦設備上。所以需要對當前所有頁面進行排序。
我會做到以下幾點:
wget --mirror http://example.com
,見manpage of wget)grep -rn 'style="font-size:10px"' mirror_directory
)
它有一個存儲頁面的數據庫嗎?你可以查詢它嗎? – eXplicit
使用CMS,你的內容很可能在數據庫中,所以找到這應該是一個問題。修復它(=剝離這些標籤)可能會變得相當複雜,儘管因爲結束標籤。如果不是在數據庫中,文件上的文本搜索應該做到這一點,在需要修復的時候也有相同的問題。 –
我處於類似的情況,約2500頁。我們使用名爲site的服務來改進其付費服務,但對於網絡治理而言效果不錯。我知道那裏有類似的產品。 – DD0UG