我渴望爲一組的哲基爾主題的來源和演示網址提取到data.frame從R中的一些遺漏值
library(rvest)
info <- read_html("https://github.com/jekyll/jekyll/wiki/themes")
data <- info %>%
html_nodes(" #wiki-body li")
data
{xml_nodeset (115)}
[11] <li>Typewriter - (<a href="https://github.com/alixedi/typewriter">source</a>, <a href="http://alixedi.github.io/typewriter">demo</a>)</li>
[12] <li>block-log - (<a href="https://github.com/anandubajith/block-log">source</a>), <a href="https://anandu.net/demo/block-log/">demo</a>)</li>
[13] <li>Otter Pop - (<a href="https://github.com/tybenz/otter-pop">source</a>)</li>
所以我想一個data.frame列表中提取的HREF( DF)與3列,例如
name source demo
Typewriter https://github.com/alixedi/typewriter http://alixedi.github.io/typewriter
我能提取所有的HREF作爲載體,但是,你可以看到,從[13]沒有演示了一些網站,所以我再遇到困難
有沒有簡單的方法我可以從數據創建df?
withDemo <- info %>%
html_nodes(xpath = "//li[contains(., 'source') and contains(., 'demo')]")
withoutDemo <- info %>%
html_nodes(xpath = "//li[contains(., 'source') and not(contains(.,'demo'))]")
然後,與源集合創建數據框:可能使用purrr庫
感謝INC purrr功能更好的選擇。這是相當的學習曲線 – pssguy