2016-04-20 283 views
0

我試圖解析這個XML文件中的R使用它的集羣:解析XML文件

<root> 
    <event> 
    <name>apache</name> 
    <ip_source>188.185.15.192</ip_source> 
    <date>02:17:45</date> 
    <request>GET3</request> 
    <status>200</status> 
    <len>7965</len> 
    </event> 
    <event> 
    <name>apache</name> 
    <ip_source>157.90.39.64</ip_source> 
    <date>02:30:01</date> 
    <request>GET2</request> 
    <status>200</status> 
    <len>964</len> 
    </event> 
    <event> 
    <name>apache</name> 
    <ip_source>115.78.92.20</ip_source> 
    <date>02:34:03</date> 
    <request>GET1</request> 
    <status>404</status> 
    <len>295</len> 
    </event> 
</root> 

所以我用下面的代碼在R:

library("XML") 
df <- xmlToDataFrame("file.xml" ,stringsAsFactors = FALSE) 
distance <- adist(df) 
hc <- hclust(as.dist(distance)) 
groups<-cutree(hc, k=2) 
result= df$date[groups==1] 
result 

而且結果我得到的是:

[1] "02:17:45" "02:34:03" NA   NA   NA 

問題是,我不明白爲什麼會出現NA,我想有一個結果列表,只有第一項「0 2:17:45「和第二個」02:34:03「,如下所示:

[1] 02:17:45 02:34:03 

我該怎麼辦?

回答

0

df具有3行和組的長度爲6。當我們做groups==1觀測1和組3的真因此匹配日期對象 返回但是,觀察4,5和6中不存在的df因此NA

df 
    # name  ip_source  date request status len 
    #1 apache 188.185.15.192 02:17:45 GET3 200 7965 
    #2 apache 157.90.39.64 02:30:01 GET2 200 964 
    #3 apache 115.78.92.20 02:34:03 GET1 404 295 


    groups 
    # name ip_source  date request status  len 
    # 1   2   1   1   1   1 

    groups==1 
    #name ip_source  date request status  len 
    #TRUE  FALSE  TRUE  TRUE  TRUE  TRUE 

    df[groups==1,] 
    #  name  ip_source  date request status len 
    #1 apache 188.185.15.192 02:17:45 GET3 200 7965 
    #3 apache 115.78.92.20 02:34:03 GET1 404 295 
    #NA  <NA>   <NA>  <NA> <NA> <NA> <NA> 
    #NA.1 <NA>   <NA>  <NA> <NA> <NA> <NA> 
    #NA.2 <NA>   <NA>  <NA> <NA> <NA> <NA> 

當我們限制組向量的長度爲df你會得到預期的結果。這對你來說可以嗎

df[groups[1:nrow(df)]==1,"date"] 
    #[1] "02:17:45" "02:34:03"