2016-02-27 30 views
4

我有很多的HTML文件,如:如何從HTML中整理刪除所有屬性和類?

<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt">some text</P> 
<TABLE class=MsoNormalTable style="BORDER-RIGHT: windowtext 1pt solid;" cellSpacing=0 cellPadding=0 width=568 border=1> 
<TR style="HEIGHT: 12.75pt; mso-yfti-irow: 0; mso-yfti-firstrow: yes"> 
<TD style="BORDER-RIGHT: windowtext 1pt solid;" width=357 colSpan=2>text td</TD> 
</TR> 
</TABLE> 

我需要從它刪除所有屬性和類,所以我得到:

<P>some text</P> 
<TABLE> 
<TR> 
<TD>text td</TD> 
</TR> 
</TABLE> 

我已經試過tidy實用程序不同的選項(drop-proprietary-attributes,word-2000),但無法獲得乾淨的代碼。

+0

你應該避免元素標籤中設置元素的樣式。這很難保持。使用''標籤。 –

+1

你說得對。但我現在的任務只是清理舊代碼。 – Dimetry

回答

0

這刪除所有MS風格:

tidy --word-2000 true --bare true -o output.html input.htm 

我使用 「HTML精簡的Linux版本5.1.25」