我有一些MHTML格式和pdf格式的文檔。我想知道在MHTML和PDF中內容是否相同。我如何比較差異?如何比較不同類型的兩個文件的內容?
0
A
回答
3
您將需要一個MHTML解析器以及一個PDF解析器庫。然後你平行瀏覽兩個文件並比較內容。並不是說這絕對不是微不足道的,因爲您必須在不同文件格式的元素之間構建映射系統。
如果您想要考慮內容可以用不同的方式寫入(例如表格與標籤)並且看起來與用戶完全一樣,那麼事情會變得非常複雜。
我從你提出問題的方式中感受到的直覺是,這個項目比你準備好的方式更大更復雜。
+0
他可以解析爲文本並忽略空格\新行\標籤 - 例如只比較字母(忽略大小寫,也許允許一些錯誤率 - 可以說每500個字符中有1個字符可以有錯誤並且仍然相等) –
+0
@Quantic編程:這適用於簡單的文本文檔,但只要有文本框(div或HTML中的任何內容)不屬於主文本流程,就會遇到問題。 –
相關問題
- 1. 比較任何文件類型的兩個文件的內容
- 2. 比較不同類型的兩個值
- 3. 如何比較兩個文本文件的內容並返回「相同內容」或「不同內容」?
- 4. 如何比較兩個dll的內容?
- 5. ant:如何比較兩個文件的內容
- 6. 如何比較兩個資源文件(* .res)的內容?
- 7. 如何比較兩個具有相似內容的文件
- 8. 比較內容中有多個文件的兩個文件夾
- 9. C# - 如何比較兩個不同的文本文件
- 10. 如何比較兩個不同表的兩個不同的行?
- 11. 如何比較兩個StructType共享相同的內容?
- 12. 比較Eclipse的不同版本的兩個java類文件
- 13. 如何比較兩個不同的IP?
- 14. 如何比較python中兩個不同文件中的兩個圖像文件
- 15. 如何比較同一類型的兩個對象的「狀態」?
- 16. 如何在php中比較兩個不同的擴展文件?
- 17. scala中如何比較兩種不同類型的對象?
- 18. 比較2個excel文件的內容
- 19. JUnit:比較兩個無序文本文件的內容
- 20. 比較同一個文件的兩個不同的目錄
- 21. 比較SQL中不同類型的不同表中的兩列
- 22. 比較兩個類的類型
- 23. 比較兩個std :: lists的內容
- 24. 比較兩個列表的內容
- 25. 比較Unix中兩個csv的內容
- 26. 比較兩個字符值的內容
- 27. 比較兩個HTML塊,如果它具有相同的內容
- 28. 比較控制器內兩個不同模型的屬性
- 29. Doc4j:比較兩個文件失敗,因爲不同的元素類型
- 30. 比較兩列兩個不同的Excel文件查找的java
請參閱:http://stackoverflow.com/questions/968935/c-binary-file-compare長相類似 –
您想比較內容嗎?如果沒有非常複雜的解析器,這是不可能的。 –
你是說你想將MHTML文件與PDF文件進行比較以檢查內容是否相同?或者你想比較兩個MHTML或兩個PDF文件? –