如何使XML解析器知道所有字符實體引用？

我從服務器獲取任意XML並使用此Java代碼解析它：如何使XML解析器知道所有字符實體引用？

String xmlStr; // arbitrary XML input 
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); 
try { 
    DocumentBuilder builder = factory.newDocumentBuilder(); 
    InputSource is = new InputSource(new StringReader(xmlStr)); 
    return builder.parse(is); 
} 
catch (SAXException | IOException | ParserConfigurationException e) { 
    LOGGER.error("Failed to parse XML.", e); 
}

在每隔一段時間，XML輸入包含像 一些未知的實體引用和失敗，出現錯誤，如org.xml.sax.SAXParseException: The entity "nbsp" was referenced, but not declared.

我可以通過預處理原始xmlStr並在解析之前轉換所有有問題的實體引用來解決此問題。這裏是一個可行的虛擬實現：

protected static String translateEntityReferences(String xml) { 
    String newXml = xml; 
    Map<String, String> entityRefs = new HashMap<>(); 
    entityRefs.put("&nbsp;", "&#160;"); 
    entityRefs.put("&laquo;", "&#171;"); 
    entityRefs.put("&raquo;", "&#187;"); 
    // ... and 250 more... 
    for(Entry<String, String> er : entityRefs.entrySet()) { 
     newXml = newXml.replace(er.getKey(), er.getValue()); 
    } 
    return newXml; 
}

然而，這實在是不能令人滿意的，因爲有are a huge number of entity references我不希望所有的硬編碼到我的Java類。

是否有任何簡單的方法來教導整個DocumentBuilder字符實體引用列表？

來源

2016-08-04 dokaspar

這裏你去：https://dev.w3.org/html5/html-author/charref玩得開心！ –

看起來很有趣，但我如何說服我的DocumentBuilder相同呢？ ;-) – dokaspar

你可以試試這個正則表達式來替換空白字符串的匹配內容。 String regexex =「＆|＃| [A-Za-z]？（\\ w + | \\ d +）;」; Pattern pattern = Pattern.compile（regexex）;否則你可以嘗試JSOUP庫。檢查鏈接[http://stackoverflow.com/questions/36026353/parsing-xml-file-containing-html-entities-in-java-without-changing-the-xml](http://stackoverflow.com/questions/36026353 /解析的XML含文件-HTML實體功能於Java的不變化的最XML）。 –

如果您可以更改代碼以使用StAX而不是DOM，則通常使用XMLInputFactory屬性IS_REPLACING_ENTITY_REFERENCES設置爲false。

public static void main(String[] args) throws Exception 
{ 
    String doc = "<doc>&nbsp;</doc>"; 
    ByteArrayInputStream is = new ByteArrayInputStream(doc.getBytes()); 

    XMLInputFactory xif = XMLInputFactory.newFactory(); 
    xif.setProperty(javax.xml.stream.XMLInputFactory.IS_REPLACING_ENTITY_REFERENCES, false); 
    XMLStreamReader xr = xif.createXMLStreamReader(is); 

    while(xr.hasNext()) 
    { 
     int t = xr.getEventType(); 
     switch(t) { 
      case XMLEvent.ENTITY_REFERENCE: 
       System.out.println("Entity: "+ xr.getLocalName()); 
       break; 
      case XMLEvent.START_DOCUMENT: 
       System.out.println("Start Document"); 
       break; 
      case XMLEvent.START_ELEMENT: 
       System.out.println("Start Element: " + xr.getLocalName()); 
       break; 
      case XMLEvent.END_DOCUMENT: 
       System.out.println("End Document"); 
       break; 
      case XMLEvent.END_ELEMENT: 
       System.out.println("End Element: " + xr.getLocalName()); 
       break; 
      default: 
       System.out.println("Other: "); 
       break; 
     } 
     xr.next(); 
    } 
}

輸出：

Start Document 
Start Element: doc 
Entity: nbsp null 
End Element: doc

但是，可能需要在你的代碼太多重寫，如果你真的需要完整的DOM樹在內存中。

我花了一個小時追蹤DOM實現，並找不到任何方法使DOM解析器從XMLStreamReader中讀取。

此外在代碼中有證據表明內部DOM解析器實現有一個類似於IS_REPLACING_ENTITY_REFERENCES的選項，但我找不到從外部設置它的任何方法。

來源

2016-08-04 20:19:43

感謝您的調查。但確實，這看起來像一個重寫... – dokaspar

真正令人難過的部分是，代碼掃描實體引用並拋出異常（'com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanEntityReference（ XMLStringBuffer）'）實際上會檢查一個'fReplaceEntityReferences'選項標誌。如果我在調試器中手動將其調整爲'false'，代碼將按照您的需要構建DOM。但似乎沒有辦法從公共API中設置它，也無法訪問實現。 –

如何使XML解析器知道所有字符實體引用？

回答

相關問題