2017-07-04 120 views
0

我想從網頁中提取值,但對於某些xml結構,我似乎得不到聚合值。rVest:如何提取值(忽略兒童)

data 
{xml_nodeset (1)} 
[1] <span class="match">tusinde<span class="super">1</span></span> 

如果我提取文本我得到:

data %>% html_text() 
tusinde1 

我要的是:

tusinde 

回答

1

沒有對一般問題和重複的例子,更多的背景,所以很難提供超出您提供的特定範例的解決方案。

例如,下面的代碼解決了你的問題,但是我不知道除了那個特殊情況以外,還有多少。

data <- "<span class=\"match\">tusinde<span class=\"super\">1</span></span>" 

out <- data %>% read_xml() %>% xml_contents() 

as.character(out[1]) 

爲您提供:

[1] "tusinde"