Java REGEX XML解析/裁減同時維護結構HowTo

我正在用Java編寫一個RESTful Web服務。這個想法是「裁減」一個XML文檔，去掉所有不需要的內容（〜98％），只留下我們感興趣的標籤，同時保持文檔的結構，如下所示（我無法提供出於保密原因實際的XML內容）：Java REGEX XML解析/裁減同時維護結構HowTo

<sear:SEGMENTS xmlns="http://www.exlibrisgroup.com/xsd/primo/primo_nm_bib" xmlns:sear="http://www.exlibrisgroup.com/xsd/jaguar/search"> 
    <sear:JAGROOT> 
     <sear:RESULT> 
     <sear:DOCSET IS_LOCAL="true" TOTAL_TIME="176" LASTHIT="9" FIRSTHIT="0" TOTALHITS="262" HIT_TIME="11"> 
      <sear:DOC SEARCH_ENGINE_TYPE="Local Search Engine" SEARCH_ENGINE="Local Search Engine" NO="1" RANK="0.086826384" ID="2347460"> 
       [ 
       <PrimoNMBib> 
        <record> 
        <display> 
         <title></title> 
        </display> 
        <sort> 
         <author></author> 
        </sort> 
        </record> 
       </PrimoNMBib> 
       ] 
      </sear:DOC> 
     </sear:DOCSET> 
     </sear:RESULT> 
    </sear:JAGROOT> 
</sear:SEGMENTS>

當然，這僅僅是我們感興趣的標籤的結構 - 有數百個標籤，但它們是不相關的。

方括號（[]）不是XML的一部分，並且表示元素<PrimoNMBib></PrimoNMBib>是子項列表的元素，並且不止一次出現 - 每次從RESTFUL服務搜索匹配時都會出現一個元素。

我一直在嘗試使用正則表達式解析文檔，以便僅保留上面顯示的結構的片段以及<title>和<author>的值，同時刪除標籤之間的所有其他標籤，包括其他標籤，但我不能得到它爲我的生活工作...

以前我試過它使用XSLT，但對於未解決的原因，也沒有工作...或我已經問過一個問題XSLT執行...

無論如何，我將非常感謝提示/提示/解決方案，如何使用正則表達式和Java來解決這個問題...

來源

2012-04-27 Piotr

我很遺憾聽說爲此設計的XSLT不適合您。用正則表達式來做它聽起來非常困難。事實上，除了使用XML解析庫之外，其他任何方式聽起來都很難。也許像製作一個[SAXParser]（http://docs.oracle.com/javase/6/docs/api/javax/xml/parsers/SAXParser.html）並構建一堆祖先標籤可能會有所幫助？ – 2012-04-27 13:30:03

非常感謝Rob。也許你能夠建議如何用XSLT解決這個問題？也許你會能夠爲我的XSLT實現建議一些東西？：http://stackoverflow.com/questions/10340023/restful-glassfish-xml-xslt-stylesheet-java-transformation-produces-empty-output – Piotr 2012-04-27 13:39:44

如果有保證的話標籤是一個獨立的行，並刪除不必要的標籤不會制止xml結構的有效性，你可以使用正則表達式的腳本（perl，bash，sed，python等）來讀取這些行，不包含所需標籤的開口和結尾。 – 2012-04-27 13:44:33

我不會推薦使用正則表達式來操縱XML。

另類視角

你可以使用的StAX解析器利用了StreamFilter削減文件，仍然保持一個有效的結構。

如何一個StreamFilter作品

一個StreamFilter接收來自XMLStreamReader事件情況下，如果你想擁有的事件報道你返回true，否則爲false。在下面的示例中，StreamFilter將拒絕"http://www.exlibrisgroup.com/xsd/jaguar/search"名稱空間中的任何內容。您需要調整邏輯以使其符合您的用例要求。

http://docs.oracle.com/javase/6/docs/api/javax/xml/stream/StreamFilter.html

演示

package forum10351473; 

import java.io.FileReader; 
import javax.xml.stream.*; 

public class Demo { 

    public static void main(String[] args) throws Exception { 
     XMLInputFactory xif = XMLInputFactory.newFactory(); 
     XMLStreamReader xsr = xif.createXMLStreamReader(new FileReader("src/forum10351473/input.xml")); 
     xsr = xif.createFilteredReader(xsr, new StreamFilter() { 

      private boolean reportContent = false; 

      @Override 
      public boolean accept(XMLStreamReader reader) { 
       if(reader.isStartElement() || reader.isEndElement()) { 
        reportContent = !"http://www.exlibrisgroup.com/xsd/jaguar/search".equals(reader.getNamespaceURI()); 
       } 
       return reportContent; 
      } 

     }); 

     // The XMLStreamReader (xsr) will now only report the events you care about. 
     // You can process the XMLStreamReader yourself or pass as input to something 
     // like JAXB. 
     while(xsr.hasNext()) { 
      if(xsr.isStartElement()) { 
       System.out.println(xsr.getLocalName()); 
      } 
      xsr.next(); 
     } 
    } 

}

輸出

PrimoNMBib 
record 
display 
title 
sort 
author

來源

2012-04-27 15:53:37

嗨布萊斯，非常感謝您的提示！我將如何去包含PrimoNMBib的父元素？ :) – Piotr 2012-04-27 16:28:58

你想要包含'sear：DOC'呢？這可以通過'accept'方法來控制。您只需添加何時接受/拒絕事件的邏輯即可。 – 2012-04-27 16:35:40

是的，我想包含所有父標記，包括以及文本值和<author>。你能幫我嗎？ :) – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/750325/">Piotr</a></span> <span>2012-04-27 16:47:53</span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相關問題</div> <ul class="relative_list"> <li> 1. <a href="http://hk.uwenku.com/question/p-repurlcw-bkh.html" target="_blank" title="BeautifulSoup遞歸解析數據和維護結構時輸出"> BeautifulSoup遞歸解析數據和維護結構時輸出 </a> </li> <li> 2. <a href="http://hk.uwenku.com/question/p-wysgjndl-bhu.html" target="_blank" title="使用xml結構解析json結構"> 使用xml結構解析json結構 </a> </li> <li> 3. <a href="http://hk.uwenku.com/question/p-uihmwini-rh.html" target="_blank" title="在Java中使用REGEX解析XML"> 在Java中使用REGEX解析XML </a> </li> <li> 4. <a href="http://hk.uwenku.com/question/p-bmslvlmj-bna.html" target="_blank" title="的Android/JAVA - 解析不同結構"> 的Android/JAVA - 解析不同結構 </a> </li> <li> 5. <a href="http://hk.uwenku.com/question/p-pluvfrtv-pu.html" target="_blank" title="解析XML結構2"> 解析XML結構2 </a> </li> <li> 6. <a href="http://hk.uwenku.com/question/p-ecgaigvc-vh.html" target="_blank" title="®同時解析XML"> ®同時解析XML </a> </li> <li> 7. <a href="http://hk.uwenku.com/question/p-ofxaiftb-qn.html" target="_blank" title="在使用Beautifulsoup解析時維護XML文件的縮進"> 在使用Beautifulsoup解析時維護XML文件的縮進 </a> </li> <li> 8. <a href="http://hk.uwenku.com/question/p-zovvzwiw-hn.html" target="_blank" title="複製時維護列表結構"> 複製時維護列表結構 </a> </li> <li> 9. <a href="http://hk.uwenku.com/question/p-shdrnqnr-rz.html" target="_blank" title="在恢復時維護URL結構"> 在恢復時維護URL結構 </a> </li> <li> 10. <a href="http://hk.uwenku.com/question/p-syyuzgfa-baz.html" target="_blank" title="解析維基百科XML和Java"> 解析維基百科XML和Java </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://hk.uwenku.com/question/p-fzzksaon-sa.html" target="_blank" title="維護CSS層次結構"> 維護CSS層次結構 </a> </li> <li> 12. <a href="http://hk.uwenku.com/question/p-phautkdq-ha.html" target="_blank" title="投影和維護結構"> 投影和維護結構 </a> </li> <li> 13. <a href="http://hk.uwenku.com/question/p-brjifqqj-nx.html" target="_blank" title="XML解析速度減慢"> XML解析速度減慢 </a> </li> <li> 14. <a href="http://hk.uwenku.com/question/p-zpwlzpfj-bgr.html" target="_blank" title="保護XML解析器"> 保護XML解析器 </a> </li> <li> 15. <a href="http://hk.uwenku.com/question/p-uwkuaybn-zb.html" target="_blank" title="Java XML解析"> Java XML解析 </a> </li> <li> 16. <a href="http://hk.uwenku.com/question/p-flyqifzr-rw.html" target="_blank" title="JAVA - 解析XML"> JAVA - 解析XML </a> </li> <li> 17. <a href="http://hk.uwenku.com/question/p-cszvnnyy-gg.html" target="_blank" title="java，xml解析"> java，xml解析 </a> </li> <li> 18. <a href="http://hk.uwenku.com/question/p-dfsblmhp-bku.html" target="_blank" title="Java XML解析"> Java XML解析 </a> </li> <li> 19. <a href="http://hk.uwenku.com/question/p-yjoyxsxz-bnx.html" target="_blank" title="XML解析/ JAVA"> XML解析/ JAVA </a> </li> <li> 20. <a href="http://hk.uwenku.com/question/p-okysnzqz-kb.html" target="_blank" title="JAVA，Xml解析"> JAVA，Xml解析 </a> </li> <li> 21. <a href="http://hk.uwenku.com/question/p-bhazbzoz-dm.html" target="_blank" title="HOWTO在JAVA中解析Skydrive API日期"> HOWTO在JAVA中解析Skydrive API日期 </a> </li> <li> 22. <a href="http://hk.uwenku.com/question/p-qizgqmnz-bdz.html" target="_blank" title="使用RESTKit解析深層XML結構"> 使用RESTKit解析深層XML結構 </a> </li> <li> 23. <a href="http://hk.uwenku.com/question/p-nwsdvban-u.html" target="_blank" title="XML在python（埃利亞結構）解析"> XML在python（埃利亞結構）解析 </a> </li> <li> 24. <a href="http://hk.uwenku.com/question/p-msuvtrkh-bk.html" target="_blank" title="用重複結構解析XML"> 用重複結構解析XML </a> </li> <li> 25. <a href="http://hk.uwenku.com/question/p-qqnakzsh-pn.html" target="_blank" title="的NSDictionary解析HOWTO"> 的NSDictionary解析HOWTO </a> </li> <li> 26. <a href="http://hk.uwenku.com/question/p-wqszekks-bmr.html" target="_blank" title="Oracle XML解析與Java XML解析"> Oracle XML解析與Java XML解析 </a> </li> <li> 27. <a href="http://hk.uwenku.com/question/p-rqudyizd-bcr.html" target="_blank" title="解析結構"> 解析結構 </a> </li> <li> 28. <a href="http://hk.uwenku.com/question/p-ocvntyhp-bam.html" target="_blank" title="解析XML維基百科"> 解析XML維基百科 </a> </li> <li> 29. <a href="http://hk.uwenku.com/question/p-airkywcj-sw.html" target="_blank" title="相同結構的示例XML解析不同，以完整的XML"> 相同結構的示例XML解析不同，以完整的XML </a> </li> <li> 30. <a href="http://hk.uwenku.com/question/p-rqisshsd-sg.html" target="_blank" title="Java - 如何解析無盡的遞歸結構的XML？"> Java - 如何解析無盡的遞歸結構的XML？ </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048261"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新問題 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-vewurpqk-nz.html" target="_blank" title="TensorFlow - 恢復（如果存在）"> TensorFlow - 恢復（如果存在） </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-qdizxzsl-ok.html" target="_blank" title="阿帕奇氣流1.9從GitHub"> 阿帕奇氣流1.9從GitHub </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-xlwltvrj-ne.html" target="_blank" title="在add_custom_command中連接多個文件"> 在add_custom_command中連接多個文件 </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-ttdaxkmp-nq.html" target="_blank" title="Laravel 5/Form安全（需要澄清）"> Laravel 5/Form安全（需要澄清） </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-ghukbgjo-mm.html" target="_blank" title="如何用虛假來表示可空值？"> 如何用虛假來表示可空值？ </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-fxocyrsj-mv.html" target="_blank" title="Excel的數字格式損壞"> Excel的數字格式損壞 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-xphnnpes-ma.html" target="_blank" title="Activemq - 通過不穩定連接發送大文件的最佳協議"> Activemq - 通過不穩定連接發送大文件的最佳協議 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-oxpejcyj-hn.html" target="_blank" title="「JBoss Tools Java Standard Tools AngularJS」將被忽略，因爲它已被安裝"> 「JBoss Tools Java Standard Tools AngularJS」將被忽略，因爲它已被安裝 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-vhysnhuo-ke.html" target="_blank" title="命令超時| Discord.js"> 命令超時| Discord.js </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-oqwfsoag-cy.html" target="_blank" title="如何獲取此數據？"> 如何獲取此數據？ </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相關問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.uwenku.com/question/p-repurlcw-bkh.html" target="_blank" title="BeautifulSoup遞歸解析數據和維護結構時輸出"> BeautifulSoup遞歸解析數據和維護結構時輸出 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.uwenku.com/question/p-wysgjndl-bhu.html" target="_blank" title="使用xml結構解析json結構"> 使用xml結構解析json結構 </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.uwenku.com/question/p-uihmwini-rh.html" target="_blank" title="在Java中使用REGEX解析XML"> 在Java中使用REGEX解析XML </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.uwenku.com/question/p-bmslvlmj-bna.html" target="_blank" title="的Android/JAVA - 解析不同結構"> 的Android/JAVA - 解析不同結構 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.uwenku.com/question/p-pluvfrtv-pu.html" target="_blank" title="解析XML結構2"> 解析XML結構2 </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.uwenku.com/question/p-ecgaigvc-vh.html" target="_blank" title="®同時解析XML"> ®同時解析XML </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.uwenku.com/question/p-ofxaiftb-qn.html" target="_blank" title="在使用Beautifulsoup解析時維護XML文件的縮進"> 在使用Beautifulsoup解析時維護XML文件的縮進 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.uwenku.com/question/p-zovvzwiw-hn.html" target="_blank" title="複製時維護列表結構"> 複製時維護列表結構 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.uwenku.com/question/p-shdrnqnr-rz.html" target="_blank" title="在恢復時維護URL結構"> 在恢復時維護URL結構 </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.uwenku.com/question/p-syyuzgfa-baz.html" target="_blank" title="解析維基百科XML和Java"> 解析維基百科XML和Java </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div>  <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://hk.uwenku.com/contact">聯系我們</a></li> <li>© 2020 HK.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer>  <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>

Java REGEX XML解析/裁減同時維護結構HowTo

回答