如何從評論的HTML標記中提取文本

我有一個頁面，我用Nokogiri解析過，但我需要從註釋標記中獲取文本。該HTML低於：如何從評論的HTML標記中提取文本

<div class="parent"> 
    <div class="child"> 
    <span class="visible"> hello </span> 
    <!-- <span class="commented"> hi </span> --> 
    </div> 
</div>

假設我有頁面作爲引入nokogiri page對象，這是我做過嘗試，但它給了我0：

page.xpath("//div[@class='parent']/div[@class='child']/comment()").each {|comment| comment.text }

只運行：

page.xpath("//div[@class='parent']/div[@class='child']/comment()")

給出：

[#<Nokogiri::XML::Comment:0x3fe466d8d634 " <span class=\"commented\">hi </span> ">]

我不知道如何獲取hi文本。

來源

2016-10-24 ollaollu

我不是一個引入nokogiri專家，但這樣的事情似乎工作

comment_node = Nokogiri::HTML(page.at("//div[@class='parent']/div[@class='child']/comment()").text) 
comment_node.text.strip 
=> "hi"

來源

2016-10-24 11:50:35 Ursus

是它。喜歡這個xD – ollaollu

如何從評論的HTML標記中提取文本

回答

相關問題