2016-06-21 53 views
1

我有一個HTML文件列表。我經常需要做的是在R開啓他們找到頭部分</head>的結束和手工粘貼一組給定像代碼的說:
R - 自動編輯html的代碼

<p>This report helps you find the critical issues in your data</p>

有人可以幫助我在自動編寫代碼找到標題標籤的結尾並粘貼給定的行集?

同樣的鍛鍊可能是一些其他的工具是可行的,但請協助我對R專門

回答

0

我想你想使用的XML頁面,瞭解XPath查詢,這有助於通過HTML文件進行搜索。假設您已將所有文件下載到some_dir,並且您想分析文本並只查找<div class="come_class">中的<p>

library(XML) 
files <- list.files("some_dir", full.names = TRUE, include.dirs = TRUE) 
docs <- lapply(files, htmlParse) 

text.nodes <- 
    lapply(docs, function(doc) 
    getNodeSet(doc, '//div[@class="some_div"]//p')) 

text.value <- 
    lapply(text.nodes, function(node) 
      sapply(node, xmlValue)) 
+1

相當肯定的OP要添加文本到XML文檔,也 – hrbrmstr

+0

nograpes感謝您的答覆,@hrbrmstr是真的,我想編輯HTML輸入線,並將其保存。您的代碼正在幫助我找到該部分,但我如何進入並編輯它? –

+0

@AuuragH'XML' pkg有'addNode()','addChildren()','addSibling()'(等) – hrbrmstr