從java中的字符串中刪除無效的XML字符

嗨我想從字符串中刪除所有無效的XML字符。我想用string.replace方法使用正則表達式。從java中的字符串中刪除無效的XML字符

像

line.replace(regExp,"");

什麼是使用權的正則表達式？

無效的XML字符是一切，是不是這樣的：

[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

感謝。

來源

2010-11-21 yossi

這取決於你想替換一下。什麼是「無效的XML字符」？ – khachik 2010-11-21 11:39:46

您是對的我已添加信息 – yossi 2010-11-21 11:48:45

您爲什麼認爲該範圍內的字符對XML無效？您可以使用'[^ \ u0001- \ uD7FF \ uE000- \ uFFFD]'來匹配超出範圍的2字節unicode字符（需要檢查，我不確定語法）。對24位字符不瞭解，抱歉。 – khachik 2010-11-21 12:03:24

Java's regex supports supplementary characters，所以你可以用兩個UTF-16編碼字符來指定那些高範圍。

這裏是用於去除在XML 1.0都是非法字符模式：

// XML 1.0 
// #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] 
String xml10pattern = "[^" 
        + "\u0009\r\n" 
        + "\u0020-\uD7FF" 
        + "\uE000-\uFFFD" 
        + "\ud800\udc00-\udbff\udfff" 
        + "]";

大多數人都希望XML 1.0版。

這裏是用於去除在XML 1.1都是非法字符模式：

// XML 1.1 
// [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] 
String xml11pattern = "[^" 
        + "\u0001-\uD7FF" 
        + "\uE000-\uFFFD" 
        + "\ud800\udc00-\udbff\udfff" 
        + "]+";

您將需要使用String.replaceAll(...)而不是String.replace(...)。

String illegal = "Hello, World!\0"; 
String legal = illegal.replaceAll(pattern, "");

來源

2010-11-21 12:58:40 McDowell

鏈接被破壞，正確的一個似乎是：http://www.oracle.com/technetwork/articles/javase/supplementary-142654.html – evgenyl 2013-04-22 10:00:08

可能由我錯了，但這個範圍不會刪除像\ b（\ u0008）等等。但是這個字符也會打破xml編組。你還可以提一下關於你對麥克拉倫的博客的評論嗎？謝謝！ – evgenyl 2013-04-22 10:02:59

@evgenyl U + 0008在「\ u0001- \ uD7FF」範圍內，不會被替換 - 它在XML中的使用是合法的。如果要刪除[限制或勸阻範圍]中的文本（http://www.w3.org/TR/2006/REC-xml11-20060816/#charsets），則必須修改正則表達式。 Renaud回答的問題是它檢查字符值而不是Unicode碼點。 Jun的答案顯示了UTF-16代碼單元到代碼點 – McDowell 2013-04-22 10:28:53

-2

我相信以下文章可能對您有所幫助。

http://commons.apache.org/lang/api-2.1/org/apache/commons/lang/StringEscapeUtils.html http://www.javapractices.com/topic/TopicAction.do?Id=96

不久，嘗試使用StringEscapeUtils從Jakarta項目。

來源

2010-11-21 12:26:00 AlexR

+10

I沒有看到這對原始海報有什麼幫助 - 問題是存在一系列不能用XML編碼的字符。在嘗試對字符數據進行編碼之前，必須先處理這些內容。 – McDowell 2010-11-21 13:02:13

從Mark McLaren's Weblog

/** 
    * This method ensures that the output String has only 
    * valid XML unicode characters as specified by the 
    * XML 1.0 standard. For reference, please see 
    * <a href="http://www.w3.org/TR/2000/REC-xml-20001006#NT-Char">the 
    * standard</a>. This method will return an empty 
    * String if the input is null or empty. 
    * 
    * @param in The String whose non-valid characters we want to remove. 
    * @return The in String, stripped of non-valid characters. 
    */ 
    public static String stripNonValidXMLCharacters(String in) { 
     StringBuffer out = new StringBuffer(); // Used to hold the output. 
     char current; // Used to reference the current character. 

     if (in == null || ("".equals(in))) return ""; // vacancy test. 
     for (int i = 0; i < in.length(); i++) { 
      current = in.charAt(i); // NOTE: No IndexOutOfBoundsException caught here; it should not happen. 
      if ((current == 0x9) || 
       (current == 0xA) || 
       (current == 0xD) || 
       ((current >= 0x20) && (current <= 0xD7FF)) || 
       ((current >= 0xE000) && (current <= 0xFFFD)) || 
       ((current >= 0x10000) && (current <= 0x10FFFF))) 
       out.append(current); 
     } 
     return out.toString(); 
    }

來源

2012-06-05 09:20:15 Renaud

-1這隻適用於基本的多語言平面。 – McDowell 2013-01-07 22:36:37

@McDowell能否詳細說明未涵蓋的內容，爲什麼？這與Jun的回答基本上是一樣的，這並沒有被你降低。 – 2014-02-03 13:25:20

@ŁukaszL。此代碼測試UTF-16代碼單元。 Jun的代碼轉換並測試32位代碼點。例如，代碼點U + 1D50A位於支持的範圍0x10000-0x10FFFF中。它必須以UTF-16中的代理對來表示 - 例如字面意思是''\ uD835 \ uDD0A''。上述算法會錯誤地刪除由代理對代表的任何內容。請參閱[Character]（http://docs.oracle.com/javase/7/docs/api/java/lang/Character.html）類型上的代碼點方法。 – McDowell 2014-02-04 12:49:52

我們應該考慮替代字符？否則'（當前> = 0x10000）& &（當前< = 0x10FFFF）'永遠不會成立。

還測試了正則表達式似乎比以下循環慢。

if (null == text || text.isEmpty()) { 
    return text; 
} 
final int len = text.length(); 
char current = 0; 
int codePoint = 0; 
StringBuilder sb = new StringBuilder(); 
for (int i = 0; i < len; i++) { 
    current = text.charAt(i); 
    boolean surrogate = false; 
    if (Character.isHighSurrogate(current) 
      && i + 1 < len && Character.isLowSurrogate(text.charAt(i + 1))) { 
     surrogate = true; 
     codePoint = text.codePointAt(i++); 
    } else { 
     codePoint = current; 
    } 
    if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD) 
      || ((codePoint >= 0x20) && (codePoint <= 0xD7FF)) 
      || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD)) 
      || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) { 
     sb.append(current); 
     if (surrogate) { 
      sb.append(text.charAt(i)); 
     } 
    } 
}

來源

2012-07-26 15:31:56 Jun

與接受的答案相比，這非常複雜。 – 2012-10-10 20:26:50

君的解決方案，簡化。使用StringBuffer#appendCodePoint(int)，我不需要char current或String#charAt(int)。我可以通過檢查codePoint是否大於0xFFFF來告訴代理對。（這是沒有必要做的i ++，因爲低代理不會通過過濾器，但然後一個代碼將重新使用不同的代碼點，它會失敗。我更喜歡編程黑客。）

StringBuilder sb = new StringBuilder(); 
for (int i = 0; i < text.length(); i++) { 
    int codePoint = text.codePointAt(i); 
    if (codePoint > 0xFFFF) { 
     i++; 
    } 
    if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD) 
      || ((codePoint >= 0x20) && (codePoint <= 0xD7FF)) 
      || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD)) 
      || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) { 
     sb.appendCodePoint(codePoint); 
    } 
}

來源

2015-02-02 17:33:18 Vlasec

我顯然是沮喪的。我想知道爲什麼。這可能只是有人在拖我，但如果算法有問題，我想知道。 – Vlasec 2016-10-03 17:07:53

從Best way to encode text data for XML in Java?

String xmlEscapeText(String t) { 
    StringBuilder sb = new StringBuilder(); 
    for(int i = 0; i < t.length(); i++){ 
     char c = t.charAt(i); 
     switch(c){ 
     case '<': sb.append("&lt;"); break; 
     case '>': sb.append("&gt;"); break; 
     case '\"': sb.append("&quot;"); break; 
     case '&': sb.append("&amp;"); break; 
     case '\'': sb.append("&apos;"); break; 
     default: 
     if(c>0x7e) { 
      sb.append("&#"+((int)c)+";"); 
     }else 
      sb.append(c); 
     } 
    } 
    return sb.toString(); 
}

來源

2015-11-10 16:43:44

不可以。一個國家怎麼能一一列舉字符作爲我不明白的最好方式。 – jediz 2017-04-06 10:11:45

沒有辦法一一檢查它們。如果你使用其他方法，那麼方法必須做到 - 有人必須這樣做。如果另一種方法效率較低，則可能會產生額外的開銷。在應用程序中編寫較少的行與創建運行效率最高的代碼不同。 – 2017-04-07 12:58:49

如果你想存儲在類似XML的形式禁字符的文本元素，你可以使用XPL代替。 dev-kit爲XML和XML處理提供了併發XPL，這意味着從XPL到XML的轉換沒有時間成本。或者，如果您不需要XML的全部功能（名稱空間），則可以使用XPL。

Web Page: HLL XPL

來源

2017-04-07 13:09:41

所有這些問題的答案至今只替換字符本身。但是有時候XML文檔會有無效的XML實體序列導致錯誤。例如，如果在xml中有，則java xml解析器將拋出Illegal character entity: expansion character (code 0x2 at ...。

這是一個簡單的java程序，可以替換那些無效的實體序列。

public final Pattern XML_ENTITY_PATTERN = Pattern.compile("\\&\\#(?:x([0-9a-fA-F]+)|([0-9]+))\\;"); 

    /** 
    * Remove problematic xml entities from the xml string so that you can parse it with java DOM/SAX libraries. 
    */ 
    String getCleanedXml(String xmlString) { 
    Matcher m = XML_ENTITY_PATTERN.matcher(xmlString); 
    Set<String> replaceSet = new HashSet<>(); 
    while (m.find()) { 
     String group = m.group(1); 
     int val; 
     if (group != null) { 
     val = Integer.parseInt(group, 16); 
     if (isInvalidXmlChar(val)) { 
      replaceSet.add("&#x" + group + ";"); 
     } 
     } else if ((group = m.group(2)) != null) { 
     val = Integer.parseInt(group); 
     if (isInvalidXmlChar(val)) { 
      replaceSet.add("&#" + group + ";"); 
     } 
     } 
    } 
    String cleanedXmlString = xmlString; 
    for (String replacer : replaceSet) { 
     cleanedXmlString = cleanedXmlString.replaceAll(replacer, ""); 
    } 
    return cleanedXmlString; 
    } 

    private boolean isInvalidXmlChar(int val) { 
    if (val == 0x9 || val == 0xA || val == 0xD || 
      val >= 0x20 && val <= 0xD7FF || 
      val >= 0x10000 && val <= 0x10FFFF) { 
     return false; 
    } 
    return true; 
    }

來源

2017-07-20 18:55:37

String xmlData = xmlData.codePoints().filter(c -> isValidXMLChar(c)).collect(StringBuilder::new, 
       StringBuilder::appendCodePoint, StringBuilder::append).toString(); 

private boolean isValidXMLChar(int c) { 
    if((c == 0x9) || 
     (c == 0xA) || 
     (c == 0xD) || 
     ((c >= 0x20) && (c <= 0xD7FF)) || 
     ((c >= 0xE000) && (c <= 0xFFFD)) || 
     ((c >= 0x10000) && (c <= 0x10FFFF))) 
    { 
     return true; 
    } 
    return false; 
}

來源

2018-01-23 09:03:37

從java中的字符串中刪除無效的XML字符

回答

相關問題