解析半角冒號分隔符文件

我有一個CSV文件，但分隔符是分號;，每列都用雙引號括起來。還有的;出現在一些價值觀，如& amp;解析半角冒號分隔符文件

我使用TextFieldParser來解析文件。這是樣本數據：

"A001";"RT:This is a tweet"; "http://www.whatever.com/test/module & amp;one"

對於上面的例子，我得到比我應該得到什麼更多的列/字段。

Field[0] = "A001"
Field[1] = "RT:This is a tweet"
Field[2] = "http://www.whatever.com/test/module&amp"
Field[3] = "one"

這是我的代碼。處理這種情況需要做些什麼改變？

using (var parser = new TextFieldParser(fileName)) 
      { 
       parser.TextFieldType = FieldType.Delimited; 
       parser.SetDelimiters(";"); 
       parser.TrimWhiteSpace = true; 
       parser.HasFieldsEnclosedInQuotes = false; 

       int rowIndex = 0; 
       PropertyInfo[] properties = typeof(TwitterData).GetProperties(); 
       while (parser.PeekChars(1) != null) 
       { 
        var cleanFieldRowCells = parser.ReadFields().Select(
         f => f.Trim(new[] { ' ', '"' })); 

        var twitter = new TwitterData(); 
        int index = 0; 
        foreach (string c in cleanFieldRowCells) 
        { 
          string str = c; 

          if (properties[index].PropertyType == typeof(DateTime)) 
          { 
           string twitterDateTemplate = "ddd MMM dd HH:mm:ss +ffff yyyy"; 
           DateTime createdAt = DateTime.ParseExact(str, twitterDateTemplate, new System.Globalization.CultureInfo("en-AU")); 
           properties[index].SetValue(twitter, createdAt); 
          } 
          else 
          { 
           properties[index].SetValue(twitter, str); 
          } 

         index++; 
        } 
       }

-Alan-

來源

2016-02-14 Alan B

你嘗試HasFieldsEnclosedInQuotes''設置爲true？ – kuujinbo

是的，但沒有不同 –

嘗試在每一行上調用System.Net.WebUtility.HtmlDecode（）。它會將'&'變成'＆'，以及解碼任何其他內容。 – kuujinbo

使用您有上述兩個樣本串並設置HasFieldsEnclosedInQuotes屬性爲true對我的作品。

string LINES = @" 
    ""A001"";""RT:This is a tweet""; ""http://www.whatever.com/test/module&amp;one"" 
    ""A001"";""RT: Test1 ; Test2"";""test.com""; 
"; 
using (var sr = new StringReader(LINES)) 
{ 
    using (var parser = new TextFieldParser(sr)) 
    { 
     parser.TextFieldType = FieldType.Delimited; 
     parser.SetDelimiters(";"); 
     parser.TrimWhiteSpace = true; 
     parser.HasFieldsEnclosedInQuotes = true; 

     while (parser.PeekChars(1) != null) 
     { 
      var cleanFieldRowCells = parser.ReadFields().Select(
       f => f.Trim(new[] { ' ', '"' })).ToArray(); 
      Console.WriteLine("New Line"); 
      for (int i = 0; i < cleanFieldRowCells.Length; ++i) 
      { 
       Console.WriteLine(
        "Field[{0}] = [{1}]", i, cleanFieldRowCells[i] 
       ); 
      } 
      Console.WriteLine("{0}", new string('=', 40)); 
     } 
    } 
}

OUTPUT：

New Line 
Field[0] = [A001] 
Field[1] = [RT:This is a tweet] 
Field[2] = [http://www.whatever.com/test/module&amp;one] 
======================================== 
New Line 
Field[0] = [A001] 
Field[1] = [RT: Test1 ; Test2] 
Field[2] = [test.com] 
Field[3] = [] 
========================================

來源

2016-02-14 08:17:47 kuujinbo

以上工作正常。但是，如果我將LINES複製到文件並從文件（File.ReadAllText）中讀取內容，我會收到異常（「無法使用當前分隔符分析第1行」） –

@AlanB - 您不能只複製' LINES'原樣，因爲它是一個** C＃逐字字符串**。即雙引號會被轉義。相反，文本文件[應該看起來像這樣]（https://raw.githubusercontent.com/kuujinbo/StackOverflow.RegularExpressions/master/_INPUT/TextFieldParseRegex.txt），然後您可以將路徑傳遞到文本文件在你原來的例子中做了，而不是使用'File.ReadAllText（）'。 [看看更新]（https://github.com/kuujinbo/StackOverflow.RegularExpressions/blob/master/CSharp/TextFieldParseRegex.cs）。 – kuujinbo

解析半角冒號分隔符文件

回答

相關問題