2013-08-06 50 views
1

我一直試圖用Nokogiri解析這些HTML files。這是我用如何從Nokogiri獲取標籤名稱和CSS類:: HTML

require 'nokogiri' 
doc = Nokogiri::HTML File.open('usc...html', 'r') 
children = doc.css('body div') 
children.each do |child| 
    puts child.name 
end 

,打印div所有的子元素,即使他們幾乎整個ph3h4標籤的代碼。有人可以解釋爲什麼會這樣嗎?另外,我如何從他們那裏獲得CSS類?

+0

的CSS類有幾個XML文件..你可以把一個在這裏,您正在使用? –

+0

請向我們展示您嘗試解析的XML片段。不要讓我們通過遠程站點上的許多文件進行瀏覽。否則,*當鏈接因鏈接破壞而中斷時,問題將變得毫無意義。 –

回答

1

此:

doc.css('body div') 

會選擇頁面上的每個格。如果你想每一個元素,你應該使用:

doc.css('*') 

你可以在與child[:class]