1
我有一大組HTML文件,其中包含節點span
中雜誌的文本。我的PDF到HTML轉換器在整個HTML中插入字符實體
。問題是在R中,我使用xmlValue
函數(在XML包中)來提取文本,但是在任何存在
的地方,單詞之間的空間被消除。例如:R中的HTML字符實體替換
<span class="ft6">kids, and kids in your community, in DIY projects. </span>
將陸續xmlValue
功能的出來:
"kids,and kids in your community,in DIYprojects."
我在想,最簡單的方法來解決,這將是通過xmlValue
運行span
節點之前找到所有
,並用" "
(空格)替換它們。我將如何處理?
這是'' 沒有'的方式$ nbsp',所以'GSUB( 「 」,」」,測試)'應該工作。 – thelatemail
@thelatemail感謝您發現 - 現在修正了錯別字。在正常醒來之前必須避免張貼... – SlowLearner
我試過gsub。問題是xmlValue的輸入不是一個字符向量,它是一個「XMLinternalNode」。 gsub需要可轉換爲字符向量或字符向量的東西,但都不是這樣。 –