我在R中的XML庫的工作,並希望到HTML中塊獨立的HTML文檔
myHTML <- htmlTreeParse("myHTMLfile.HTML", useInternal=T)
unlist(xpathApply(myHTML, '//div', xmlValue))
這工作得很好,並讓我對整個事情串一個長矢量分開。不過,理想情況下,我想分塊分割我的HTML。 HTML結構如下:
<DOC>
<div>
Document 1 - Element 1
</div>
<div>
Document 1 - Element 2
</div>
<div>
Document 1 - Element 3
</div>
</DOC>
<DOC>
<div>
Document 2 - Element 1
</div>
<div>
Document 2 - Element 2
</div>
<div>
Document 2 - Element 3
</div>
</DOC>
所以想有一個列表,其中每個元素對應於一個內容,並且每個列表的元素是串載體,含有元素1,2,3爲每個DOC。
我很努力(一)甚至查詢'DOC',因爲它不是命名空間的一部分?和(B)得到這種字符串向量輸出的列表。
所以不是這個輸出
[1] "Document 1 - Element 1"
[2] "Document 1 - Element 2"
[3] "Document 1 - Element 3"
[4] "Document 2 - Element 1"
[5] "Document 2 - Element 2"
[6] "Document 2 - Element 3"
我希望得到這樣的:
[[1]]
[1] "Document 1 - Element 1"
[2] "Document 1 - Element 2"
[3] "Document 1 - Element 3"
[[2]]
[1] "Document 2 - Element 1"
[2] "Document 2 - Element 2"
[3] "Document 2 - Element 3"
非常感謝您的幫助!
這裏是我想處理HTML文件的例子:
https://raw.githubusercontent.com/sytpp/sample-files/master/data_3.html
是的,這個例子很有意義,但是當我將它應用到我的html時,我得到一個空的列表()。我可以與您分享一個真實的示例html3元素嗎? –
Sylvia
2014-12-02 22:06:44
如果你剛剛更新了你的問題,那麼更準確地反映你的情況的樣本數據會更好。 – MrFlick 2014-12-02 22:15:13
我添加了一個鏈接到該文件,從LexisNexis下載:https://raw.githubusercontent.com/sytpp/sample-files/master/data_3.html – Sylvia 2014-12-03 10:49:25