xml2

    5熱度

    3回答

    我想簡單地複製的rvest::html_nodes()的例子,但遇到了一個錯誤: library(rvest) ateam <- read_html("http://www.boxofficemojo.com/movies/?id=ateam.htm") html_nodes(ateam, "center") Error in do.call(method, list(parsed_sel

    1熱度

    1回答

    我正在嘗試使用xml2解析XML文件。但是我不能爲了我的生活而弄清楚如何通過指定名字來完成它。 這工作: library(xml2) library(dplyr) xml <- read_xml(file) - > > xml {xml_document} <indexedmzML schemaLocation="http://psi.hupo.org/ms/mzml http://

    1熱度

    1回答

    有沒有方法給每個包含文本的元素添加空格? 對於這個例子: movie <- read_html("http://www.imdb.com/title/tt1490017/") cast <- html_nodes(movie, "#titleCast span.itemprop") cast %>% html_structure() [[1]] <span.itemprop [itempr

    3熱度

    2回答

    考慮這個頁面: <n1 class="a"> 1 </n1> <n1 class="b"> <b>bold</b> 2 </n1> 如果我先選擇第一n1使用class="a",我應該是不包括第二n1,而事實上這似乎真: library(rvest) b_nodes = read_html('<n1 class="a">1</n1> <n1 class="

    2熱度

    1回答

    我試圖讀取和處理〜5.8GB .xml從維基百科轉儲使用R.我沒有太多的RAM,所以我想要處理它塊。 (目前使用時xml2::read_xml塊我的電腦完全地) 文件contais每個Wikipedia頁面一個xml元件,這樣: <page> <title>AccessibleComputing</title> <ns>0</ns> <id>10</id>

    0熱度

    1回答

    時,我有以下XML文件 <conf> <Constraints> <BETA>0</BETA> </Constraints> </conf> 當我嘗試加載這個XML R> library(XML) R> xmlParse('test.xml') *** caught segfault *** address 0x3a00000000, cause 'memory not map

    -2熱度

    1回答

    請考慮一個網站,其中包含4個或更多列表<li> html元素。 例如像這樣的網站:https://www.cprd.com/bibliography/bibliography.html 使用xml2(或其他方法,但xml2和管道是首選),什麼是提取列表爲字符的矢量的最佳方式? url <- 'https://www.cprd.com/bibliography/bibliography.html'

    1熱度

    1回答

    當嘗試使用正確的字符編碼時,xml2 :: read_html在Ubuntu上(但不是在Mac上)壓碎。 library(xml2) library(httr) # GET webpage that is encoded using Big5 (Chinese) pg <- GET("http://chinesenews.net.au") # Identif

    0熱度

    1回答

    我使用xml2和rvest在R中讀取XML文件。 XML具有以下結構(標題不包括在內)。我想提取<w:p></w:p>之間的所有文本,但首先我想將所有<w:br/>轉換爲空格。 <w:p><w:r><w:t>First bit of text</w:t></w:r><w:r><w:br/><w:t>Thank you!</w:t></w:r></w:p> 當我使用下面的代碼(具有完全合法的XM

    0熱度

    1回答

    我編寫了一個將大型異構XML文件拆分爲數據框的功能,其中拆分由xpath表達式完成。異構我的意思是說,感興趣的項目屬於一組不同的「列」結構。但是,對於大小爲50K的項目和5種類型的XML文件,代碼似乎比我預期的更爲「低迷」。 問題是:是否有現有的功能來做到這一點,我錯過了,如果沒有,是否有一種明顯的方式來提高下面的代碼速度? 這裏是我正在考慮的一種XML結構的一個小例子: xmldoc <- xm