SAX字符緩衝區大小

我想使用Sax來解析非常大的XML文件。百萬的megs。問題是解析器一次只能讀取2048個字符並終止。我使用回調「public void characters（...）」得到了標籤值的分解成兩部分的問題。例如，第一部分位於位置2044上的字符數組中，長度爲 4「2013」，位置0上的第二部分爲「-09-30」，長度爲6.它應該是日期值「2013-09- 30「，如果在一個部分接收。何我可以避免這種分裂？任何人都可以幫助我？SAX字符緩衝區大小

public void characters(char[] ch, int start, int length) throws SAXException { 
    if (Main.errorProceso==0){ 
    for(int i=0;i < strlista.size();i++){ 
    if(strlista.get(i).equals(sEtiqueta_actual)){ 
    if (sEtiqueta_actual.equals("Root.Header.Body.")){ 
    String FileNm= String.valueOf(ch, start, length); 
    if (!FileNm.substring(0,2).equalsIgnoreCase("XX")){ 
    logger.info("El identificador no es XX"); 
    Main.errorProceso=1; 
    i=strlista.size()+1; 
    sEtiqueta_actual=""; 
    } 
    else{ 
    sCod_Fichero=FileNm.substring(0,2)+XXteFormat.format(XXte); 
    } 
    } 
    else if (sEtiqueta_actual.equals("Root.Header.Date.")){ 
    String aux = String.valueOf(ch, start, length).split("T")[0]; 
    try { 
    sFec=newFormat.format(oldFormat.parse(aux)); 
    } catch (ParseException e) { 
    logger.error(e.getLocalizedMessage()); 
    Main.errorProceso=1; 
    } 
    } 
    else if (sEtiqueta_actual.equals("Root.Header2.Body2.")){ 
    sNum_Total=String.valueOf(ch, start, length); 
    } 
    else if (sEtiqueta_actual.equals("Root.Header3.Body3.Spcf.Inst.")){ 
    sImp =String.valueOf(ch, start, length); 
    } 
    . 
    . 
    . 
    else if (sEtiqueta_actual.equals("Root.Header3.Body3.Spcf.Req.")){ 
    try { 
    sFec2=newFormat.format(oldFormat.parse(String.valueOf(ch, start, length))); 
    } catch (ParseException e) { 
    logger.error(e.getLocalizedMessage()); 
    Main.errorProceso=1; 
    } 
    } 
    } 
    }

來源

2013-09-30 user2830209

你的代碼在哪裏？ –

@VimalBera我的代碼 – user2830209

這只是SAX解析器的工作方式。如果你可以增加緩衝區的大小（我不知道該怎麼做），它不會有幫助;它只會減少你將值分解成塊的次數。

SAX解析器可以隨意將字符串分開（documentation）。它是爲了提高效率;避免使用內存;爲簡化實施;或者圖書館開發人員提出的任何其他原因。

所以，如果你想讓你的字符串在一塊，你需要自己做。一個簡單的解決方案，假設你永遠需要與子元素積累字符串值：

添加StringBuffer accumulator到您的實現類，以及一個isAccumulating標誌。
在startElement中，如果元素感興趣，請設置isAccumulating標誌。
在characters中，如果設置了isAccumulating標誌，則將字符追加到累加器。
endElement，如果設置了isAccumulating標誌，則對累積字符串做所需的任何操作，然後清除標誌並清空緩衝區。

如果您可能需要使用子元素收集值，則可以將isAccumulating從標誌更改爲整數深度計數器。 startElement如果計數器大於0，則遞增計數器;如果元素需要收集其值，則將其設置爲1。如果計數器大於0，則characters附加字符。endElement如果計數器大於零，則遞減計數器，如果結果爲0，則處理並清除累加器。

來源

2013-09-30 15:39:18 rici

有趣，+1。我想知道，你碰巧知道StAX是否也是如此？ –

@BoristheSpider：我從來沒有使用StAX，但我的印象是，它爲你收集字符串。「拉」界面當然使這更實用。快速瀏覽他們的主頁沒有透露太多文檔，所以我沒有進一步追求。 – rici

@rici：非常感謝。在閱讀您的消息之前，我已經找到了關於StringBuffer的一些信息，並且我在您的回覆中對我進行了評論，並編寫了類似的內容。我今天試了一下，似乎工作正常！ – user2830209

使用String.trim()，並進一步前進到characters()功能

前檢查String.length()>=0並使用stack跟蹤哪個標籤的cData屬於。然後你可以append它。

來源

2014-01-29 05:40:26

SAX字符緩衝區大小

回答

相關問題