2011-07-21 63 views
0

我有一些MHTML格式和pdf格式的文檔。我想知道在MHTML和PDF中內容是否相同。我如何比較差異?如何比較不同類型的兩個文件的內容?

+0

請參閱:http://stackoverflow.com/questions/968935/c-binary-file-compare長相類似 –

+0

您想比較內容嗎?如果沒有非常複雜的解析器,這是不可能的。 –

+0

你是說你想將MHTML文件與PDF文件進行比較以檢查內容是否相同?或者你想比較兩個MHTML或兩個PDF文件? –

回答

3

您將需要一個MHTML解析器以及一個PDF解析器庫。然後你平行瀏覽兩個文件並比較內容。並不是說這絕對不是微不足道的,因爲您必須在不同文件格式的元素之間構建映射系統。

如果您想要考慮內容可以用不同的方式寫入(例如表格與標籤)並且看起來與用戶完全一樣,那麼事情會變得非常複雜。

我從你提出問題的方式中感受到的直覺是,這個項目比你準備好的方式更大更復雜。

+0

他可以解析爲文本並忽略空格\新行\標籤 - 例如只比較字母(忽略大小寫,也許允許一些錯誤率 - 可以說每500個字符中有1個字符可以有錯誤並且仍然相等) –

+0

@Quantic編程:這適用於簡單的文本文檔,但只要有文本框(div或HTML中的任何內容)不屬於主文本流程,就會遇到問題。 –

相關問題