2013-06-04 155 views
2

我正在處理2 pdf比較哪裏第一次提取PDF以獲取PDF樣式.PDF樣式被提取並轉換爲html。那麼最後我比較2個HTML文本。比較兩個HTML

對於PDF提取我用itextsharp

下面是代碼

this.result.AppendFormat(
    "<tr><td>{0}</td><td>{1}</td><td>{2}pt</td><td>{3}</td><td>{4}</td><td>", 
    Form1.j, curFont, font_size_client, fontweight, fontstyle); 
     } 
    this.result.Append(renderInfo.GetText()); 
     } 

    public string GetResultantText() 
    { 
     if (result.Length > 0) 
     { 
      result.Append("<tr><td></td><td></td>"); 
     } 
     return result.ToString(); 
    } 

這是我用於轉換的代碼。我的問題是一個樣本PDF,我用HTML文本書本身作爲文本比較。在HTMLbook中有一些樣式,如背景顏色,字體大小附加到文本。而不是文字,它採取了風格。你能告訴我如何提取風格。是我選擇比較2 PDF的方法是錯誤的。或任何其他方法。

回答

0

將其提取到HTML後,您可以使用jQuery來獲取.HTML()代碼。

到這裏看看:https://api.jquery.com/html/

之後,你可以比較兩個結果。

+0

也許這是更清楚http://www.w3schools.com/jquery/html_html.asp –