1
有人可以幫助我解壓縮之後的測試,我想提取發件人名稱。它位於em標籤的外面。我正在使用python BeautifulSoup包。如何使用rvest包中的<tag>提取文本R
這裏是一個網頁的鏈接:http://seclists.org/fulldisclosure/2016/Jan/0
我能提取電子郵件標題成功既然是在一個標籤。在html頁面中沒有其他div或類。
這裏是我試過
url <- "http://seclists.org/fulldisclosure/2016/Jan/0"
doc <- htmlTreeParse(url, useInternalNodes = T, trim = T, addAttributeNamespaces = T, encoding = "utf-8")
pre_text1 <- unlist(xpathSApply(doc, "//em",xmlValue))
你怎麼知道這是第六個元素?有沒有辦法遍歷返回的所有元素? –
'doc%>%html_nodes(xpath =「/ html/body/table [2] // tr [1]/td [2]/table // tr/td/text()」)'。去'html_nodes'而不是'html_node'並放下'[6]' – Rentrop