我想檢查C#中兩個PDF文件的文本內容。在c#中比較兩個pdf文件的最佳方式是什麼?
-4
A
回答
4
如果它們相同,則可以進行二進制比較。如果爲了上下文比較你可能需要一個PDF庫。 Here是一些圖書館。
0
不容易,但我想第一步將是一個體面的PDF庫,可以從PDF中提取文本。我使用的一個是從http://itextpdf.com/(開源)提供的ITextSharp。然後嘗試diff庫,如DIffer: a reusable C# diffing utility and class library。祝你好運!
0
聲明:我爲Atalasoft工作。
Atalasoft的DotImage SDK可用於從C#中的PDF中提取文本。如果PDF已經可以搜索,您可以輕鬆地獲取文本:
public String GetText(Stream s, int pageNum, int charIndex, int count)
{
using (PdfTextDocument doc = new PdfTextDocument(s))
{
PdfTextPage textPage = doc.GetPage(pageNum);
return textPage.GetText(charIndex, count);
}
}
否則,您可以使用OCR工具檢測圖像上的文本。
0
這已經有一段時間了,但是這個功能對我來說很有效(但是沒有保證......我不記得我是否在帶嵌入式圖像的PDF上試過它)。文件中嵌入了GUID或某種ID,您只需將其刪除並比較其他所有內容即可。這裏是代碼:
static bool ComparePDFs(string file1, string file2)
{
if (!File.Exists(file2))
return false;
int i;
string f1 = File.ReadAllText(file1);
string f2 = File.ReadAllText(file2);
if (f1.Length != f2.Length)
return false;
// Remove PDF ID from file1
i = f1.LastIndexOf("/ID [<");
if (i < 0)
Console.WriteLine("Error: File is not a valid PDF file: " + file1);
else
f1 = f1.Substring(0, i) + f1.Substring(i + 75);
// Remove PDF ID from file2
i = f2.LastIndexOf("/ID [<");
if (i < 0)
Console.WriteLine("Error: File is not a valid PDF file: " + file2);
else
f2 = f2.Substring(0, i) + f2.Substring(i + 75);
return f1 == f2;
}
相關問題
- 1. 在GWT中比較兩個JavaScriptObjects的最佳方式是什麼?
- 2. 使用兩個比較器的最佳方式是什麼?
- 3. 比較文件平等的最佳方式是什麼?
- 4. 什麼是比較CString的兩個向量的最佳方法
- 5. Java,比較兩個列表的最佳方法是什麼?
- 6. 在Perl中比較日期的最佳方式是什麼?
- 7. 什麼是比較兩個列表的最佳方式<Custom>
- 8. 什麼是比較兩個NSArrays和檢測的最佳方式改變
- 9. 比較兩張excel表格的最佳方法是什麼?
- 10. 什麼是比較兩個項目列表的最快方式?
- 11. 在C#中生成KML文件的最佳方式是什麼?
- 12. 比較兩個Properties對象中的值的最佳方法是什麼?
- 13. 比較兩個平面文件內容的最佳方法
- 14. 比較兩個類列表對象的內容的最佳方法是什麼?
- 15. 在C++中比較文件更新的最佳方法?
- 16. 在Javascript中比較一個值的最佳做法是什麼?
- 17. 在C/C++中加密文本文件的最佳方式是什麼?
- 18. 什麼是在Android中閱讀PDF的最佳方式?
- 19. 在ASP.Net中打印PDF報告的最佳方式是什麼?
- 20. 在C#中讀寫cXML文檔的最佳方式是什麼?
- 21. 在ASP.NET中將PDF文件轉換爲HTML的最佳方式是什麼?
- 22. 什麼是Windows的最佳內聯文件比較器?
- 23. 在PHP和MySQL中比較兩個Paragarphs的最佳策略是什麼?
- 24. 什麼是比較來自兩個不同數據庫實例的兩個表的最佳方式
- 25. 什麼是在Bash中執行時間戳比較的最佳方式
- 26. 什麼是複製QT中的兩個二進制文件的最佳方式
- 27. 什麼是解析Microsoft Office和PDF文檔的最佳方式?
- 28. 比較C中兩個字符串的最快方法是什麼?
- 29. 比較兩個列表最簡單的方法是什麼?
- 30. 比較兩個字符串的最有效方法是什麼?
比較他們如何?看他們是一樣的嗎?找出差異?還有別的嗎? – Oded 2010-12-07 13:50:18