比較2個文件時出現問題 - false應該是true？

我嘗試使用逐字節比較，並比較文件的計算散列（代碼示例如下）。我有一個文件，複製它 - 比較兩個 - 結果是TRUE。但是，當我打開其中一個文件時，問題就開始了：比較2個文件時出現問題 - false應該是true？

MS字文件 - 在打開和關閉其中一個文件後，結果仍爲TRUE，但是，例如，當我刪除文件中的最後一個符號時，再次，然後嘗試再次比較 - 結果FALSE。文件基本上是一樣的，理論上說，似乎在逐字節他們不再是相同的。

使用Excel文件 - 即使打開文件也會導致函數返回false。它應該是那樣嗎？只有我能想到的事情發生了變化，就是Last Access時間。但在比較逐字節時是否考慮到了這一點？

所以我想問一下，這個比較是否應該像這樣工作，我有什麼辦法可以避免這種情況？在我的程序中，我將比較mostly.pdf文件，其中編輯將不是一個很好的選擇，但我仍然想知道爲什麼它會像這樣。

逐字節與緩衝：

static bool FilesAreEqualFaster(string f1, string f2) 
    { 
     // get file length and make sure lengths are identical 
     long length = new FileInfo(f1).Length; 
     if (length != new FileInfo(f2).Length) 
      return false; 

     byte[] buf1 = new byte[4096]; 
     byte[] buf2 = new byte[4096]; 

     // open both for reading 
     using (FileStream stream1 = File.OpenRead(f1)) 
     using (FileStream stream2 = File.OpenRead(f2)) 
     { 
      // compare content for equality 
      int b1, b2; 
      while (length > 0) 
      { 
       // figure out how much to read 
       int toRead = buf1.Length; 
       if (toRead > length) 
        toRead = (int)length; 
       length -= toRead; 

       // read a chunk from each and compare 
       b1 = stream1.Read(buf1, 0, toRead); 
       b2 = stream2.Read(buf2, 0, toRead); 
       for (int i = 0; i < toRead; ++i) 
        if (buf1[i] != buf2[i]) 
         return false; 
      } 
     } 

     return true; 
    }

哈希：

private static bool CompareFileHashes(string fileName1, string fileName2) 
    { 
     // Compare file sizes before continuing. 
     // If sizes are equal then compare bytes. 
     if (CompareFileSizes(fileName1, fileName2)) 
     { 
      // Create an instance of System.Security.Cryptography.HashAlgorithm 
      HashAlgorithm hash = HashAlgorithm.Create(); 

      // Declare byte arrays to store our file hashes 
      byte[] fileHash1; 
      byte[] fileHash2; 

      // Open a System.IO.FileStream for each file. 
      // Note: With the 'using' keyword the streams 
      // are closed automatically. 
      using (FileStream fileStream1 = new FileStream(fileName1, FileMode.Open), 
           fileStream2 = new FileStream(fileName2, FileMode.Open)) 
      { 
       // Compute file hashes 
       fileHash1 = hash.ComputeHash(fileStream1); 
       fileHash2 = hash.ComputeHash(fileStream2); 
      } 

      return BitConverter.ToString(fileHash1) == BitConverter.ToString(fileHash2); 
     } 
     else 
     { 
      return false; 
     } 
    }

來源

2011-03-09 andree

當然，如果你編輯文件，他們只是「基本相同」，那麼他們是不一樣的，結果應該是錯誤的... – Rob 2011-03-09 10:01:00

事情是，他們幾乎是相同的 - 我只是刪除一個simbol和然後將其寫回並保存 - 上下文，格式，一切都是一樣的，但在字節級別，它們變得不同。我想我會忍受這一點，因爲我只需要比較.pdf文件，這似乎不那麼敏感。 – andree 2011-03-09 10:22:07

從別的

除此之外，這個代碼是錯誤的：

b1 = stream1.Read(buf1, 0, toRead); 
b2 = stream2.Read(buf2, 0, toRead); 
for (int i = 0; i < toRead; ++i) 
    if (buf1[i] != buf2[i]) 
     return false;

你忽略b1和b2彼此不相等的可能性以及toRead。如果您只需要讀取第一個數據流中的10個字節和第二個數據中的20個字節，那麼當您要求30個字節時呢？您可能沒有達到文件的結尾，但它仍然可能會使您返回的數據少於您的要求。 千萬不要忽略Stream.Read的返回值。（你將它保存在一個變量中，但忽略變量。）

基本上你需要有獨立的緩衝區，必要時補充 - 跟蹤你在每個緩衝區內的位置以及多少有用的數據在那裏。在需要時將更多數據讀入每個緩衝區。

再就是文件實際上打開它們，亨克提到的只是改變的其他問題。

來源

2011-03-09 10:03:27

比較2個文件時出現問題 - false應該是true？

回答

相關問題