xml2

5熱度

3回答

我想簡單地複製的rvest::html_nodes()的例子，但遇到了一個錯誤： library(rvest) ateam <- read_html("http://www.boxofficemojo.com/movies/?id=ateam.htm") html_nodes(ateam, "center") Error in do.call(method, list(parsed_sel

1熱度

1回答

按名稱提取節點

我正在嘗試使用xml2解析XML文件。但是我不能爲了我的生活而弄清楚如何通過指定名字來完成它。這工作： library(xml2) library(dplyr) xml <- read_xml(file) - > > xml {xml_document} <indexedmzML schemaLocation="http://psi.hupo.org/ms/mzml http://

1熱度

1回答

給文本元素添加空格

有沒有方法給每個包含文本的元素添加空格？對於這個例子： movie <- read_html("http://www.imdb.com/title/tt1490017/") cast <- html_nodes(movie, "#titleCast span.itemprop") cast %>% html_structure() [[1]] <span.itemprop [itempr

3熱度

2回答

爲什麼xpath會再次找到排除的節點？

考慮這個頁面： <n1 class="a"> 1 </n1> <n1 class="b"> <b>bold</b> 2 </n1> 如果我先選擇第一n1使用class="a"，我應該是不包括第二n1，而事實上這似乎真： library(rvest) b_nodes = read_html('<n1 class="a">1</n1> <n1 class="

2熱度

1回答

讀取和解析XML中的大塊在R

我試圖讀取和處理〜5.8GB .xml從維基百科轉儲使用R.我沒有太多的RAM，所以我想要處理它塊。（目前使用時xml2::read_xml塊我的電腦完全地）文件contais每個Wikipedia頁面一個xml元件，這樣： <page> <title>AccessibleComputing</title> <ns>0</ns> <id>10</id>

0熱度

1回答

[R段錯誤讀取XML

時，我有以下XML文件 <conf> <Constraints> <BETA>0</BETA> </Constraints> </conf> 當我嘗試加載這個XML R> library(XML) R> xmlParse('test.xml') *** caught segfault *** address 0x3a00000000, cause 'memory not map

-2熱度

1回答

如何將網頁中的HTML列表讀入R

請考慮一個網站，其中包含4個或更多列表<li> html元素。例如像這樣的網站：https://www.cprd.com/bibliography/bibliography.html 使用xml2（或其他方法，但xml2和管道是首選），什麼是提取列表爲字符的矢量的最佳方式？ url <- 'https://www.cprd.com/bibliography/bibliography.html'

1熱度

1回答

xml2 :: read_html在Ubuntu上使用適當的字符編碼崩潰

當嘗試使用正確的字符編碼時，xml2 :: read_html在Ubuntu上（但不是在Mac上）壓碎。 library(xml2) library(httr) # GET webpage that is encoded using Big5 (Chinese) pg <- GET("http://chinesenews.net.au") # Identif

0熱度

1回答

R - 用空格替換xml標籤使用rvest

我使用xml2和rvest在R中讀取XML文件。 XML具有以下結構（標題不包括在內）。我想提取<w:p></w:p>之間的所有文本，但首先我想將所有<w:br/>轉換爲空格。 <w:p><w:r><w:t>First bit of text</w:t></w:r><w:r><w:br/><w:t>Thank you!</w:t></w:r></w:p> 當我使用下面的代碼（具有完全合法的XM

0熱度

1回答

通過xpath表達式將XML文檔快速拆分爲data.frames

我編寫了一個將大型異構XML文件拆分爲數據框的功能，其中拆分由xpath表達式完成。異構我的意思是說，感興趣的項目屬於一組不同的「列」結構。但是，對於大小爲50K的項目和5種類型的XML文件，代碼似乎比我預期的更爲「低迷」。問題是：是否有現有的功能來做到這一點，我錯過了，如果沒有，是否有一種明顯的方式來提高下面的代碼速度？這裏是我正在考慮的一種XML結構的一個小例子： xmldoc <- xm