1
我使用以下腳本嘗試從HTML轉換而來的PDF文件中提取數據。當在XML中使用XML抓取數據時提取「風格」信息R
temp.html <- scan(file=filename,what="character")
pagetree <- htmlTreeParse(temp.html, error=function(...){}, useInternalNodes = TRUE)
tx.raw <- getNodeSet(pagetree,"//div")
的tx.raw
創建一個列表,其中一個如下圖所示:
tx[[170]]
[[170]]
<div style="position:absolute;top:985;left:748">
<nobr>
<span class="ft03">
971.72
</span>
</nobr>
</div>
我需要的信息在裏面span
(即971.72
),但我還需要style
在div
讓我知道span
中的數據片段是位於pdf文件中的。我怎樣才能提取樣式信息呢?謝謝。