我試圖從HTML文件中取出一個表並使用R解析它。 例如,如果HTML文件中的正文元素具有以下標記,並且我想導航DOM樹以獲取second <div>
,如下所示:body <- pagetree$children$html$children$body
,該怎麼做?可能是像content = body$children
...? 如何具體指那個div?是通過使用父節點的子節點的屬性還是順序?使用R解析DOM中的HTML
names(body)
script script link link
"script" "script" "link" "link"
link link link comment
"link" "link" "link" "comment"
comment div script div
"comment" "div" "script" "div"
div script div script
"div" "script" "div" "script"
script script
"script" "script"