2016-12-21 90 views
0

我是JAVA SAX的初學者。我有一個大的XML文件,我想從中提取一些信息。下面是XML文件,我想提取和代碼:如何從大型XML中獲取特定元素的值

... 
    <Synset baseConcept="3" id="mizaAj_n2AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="hyponym" targets="TaboE_n2AR"/> 
      <SynsetRelation relType="hyponym" targets="TaboE_n2AR"/> 
      <SynsetRelation relType="hypernym" targets="ragobap_n4AR"/> 
      <SynsetRelation relType="hypernym" targets="ragobap_n4AR"/> 
      <SynsetRelation relType="hypernym" targets="Tiybap_Aln~afos_n1AR"/> 
      <SynsetRelation relType="hypernym" targets="Tiybap_Aln~afos_n1AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04623612-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
     <Synset baseConcept="3" id="ragobap_n4AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="antonym" targets="mizaAj_n2AR"/> 
      <SynsetRelation relType="antonym" targets="mizaAj_n2AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04624826-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
     <Synset baseConcept="3" id="tasal~uT_n1AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="has_instance" targets="simap_n1AR"/> 
      <SynsetRelation relType="is_instance" targets="simap_n1AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04625882-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
... 

我想:從XML文件

提取

hyponym: 2 
hypernym: 4 
antonym: 2 
has_instance: 1 
is_instance:1 

代碼(主類和我處理器):

import java.io.IOException; 
    import org.xml.sax.SAXException; 
    import org.xml.sax.XMLReader; 
    import org.xml.sax.helpers.XMLReaderFactory; 

    public class Main { 

     public static void main(String[] args) throws SAXException, IOException{ 

      XMLReader p = XMLReaderFactory.createXMLReader(); 
      p.setContentHandler(new handler()); 
      p.parse("test1.xml"); 
} 
    ---------------------------------------- 
import org.xml.sax.helpers.DefaultHandler; 

    public class handler extends DefaultHandler { 

     @Override 
     public void startElement(String SpacenameURI, String localName, 
       String qName, Attributes attrs) { 

      System.out.println("qname = " + qName); 
      String node = qName; 

      if (attrs != null) { 
       for (int i = 0; i < attrs.getLength(); i++) { 
        //nous récupérons le nom de l'attribut 
        String aname = attrs.getLocalName(i); 
        //Et nous affichons sa valeur 
        System.out.println("Attribut " + aname + " valeur : " + attrs.getValue(i)); 
       } 
      } 
     } 
    } 
+0

什麼是你的問題? – geoffreydv

+0

我確實提到了我想要的。我想從XML文件中獲取一些信息。我的代碼沒有給我正確的信息。 – bttX

+0

因此,如果我理解正確,您不需要這些值,但是您想要計算文件中某些特定元素的出現次數。你想要每個Synset元素的計數還是一般的整個文件? – geoffreydv

回答

0
public Map<String, Integer> countElements(File xmlFile) { 

    Map<String, Integer> counts = new HashMap<>(); 

    try { 
     XMLInputFactory inputFactory = XMLInputFactory.newInstance(); 
     FileInputStream fileInputStream = new FileInputStream(xmlFile); 
     XMLStreamReader reader = inputFactory.createXMLStreamReader(fileInputStream); 

     while(reader.hasNext()) { 
      reader.next(); 
      if(reader.isStartElement() && reader.getLocalName().equals("SynsetRelation")) { 
       String relTypeValue = reader.getAttributeValue("", "relType"); 

       if(!counts.containsKey(relTypeValue)) { 
        counts.put(relTypeValue, 0); 
       } 

       counts.put(relTypeValue, counts.get(relTypeValue) + 1); 
      } 
     } 

     fileInputStream.close(); 
    } catch (XMLStreamException | IOException e) { 
     e.printStackTrace(); 
    } 

    return counts; 
} 

此代碼使用Stream閱讀器,這意味着它將只在內存中一次加載一個元素。即使對於大文件,這也會使其效率更高。

地圖用於跟蹤計數。每當我遇到一個「SynsetRelation」元素時,我首先檢查它是否已經被計數,然後增加計數器。

結果是包含每個檢測值的計數的映射。

你會在你的主類使用這樣的:

public class Main { 
    public static void main(String[] args) { 
     Map<String, Integer> results = countElements(new File("your file location here.xml")); 
    } 
} 
+0

謝謝你,但你可以評論的代碼,所以我可以理解它,並根據需要修改它。再次坦克;) – bttX

+0

不客氣。我在代碼下面提供了一些額外的文字來澄清它。如果您有困惑的特定部分,請提問! – geoffreydv

+0

我在答案的底部添加了一個使用示例,您應該將countElements方法作爲私有靜態方法添加到主類中,或者創建另一個具有該方法的新類,然後調用該方法。 (如新的XmlCounter()。countElements();) – geoffreydv