2016-10-19 113 views
0

我試圖從HTML文件中取出一個表並使用R解析它。 例如,如果HTML文件中的正文元素具有以下標記,並且我想導航DOM樹以獲取second <div>,如下所示:body <- pagetree$children$html$children$body,該怎麼做?可能是像content = body$children ...? 如何具體指那個div?是通過使用父節點的子節點的屬性還是順序?使用R解析DOM中的HTML

names(body) 
    script script  link  link 
"script" "script" "link" "link" 
    link  link  link comment 
    "link" "link" "link" "comment" 
    comment  div script  div 
"comment"  "div" "script"  "div" 
     div script  div script 
    "div" "script"  "div" "script" 
    script script 
"script" "script" 

回答

0

不是從你的問題清楚,如果你知道這一點 - 但你也許應該使用包XML

0

rvest包是我用來刮和導航HTML。它具有解析的命令,並允許您輕鬆瀏覽標籤。如果您需要導航xml文件,xml2軟件包也可以工作。