我試圖用Nokogiri刮html。 這是html源代碼:用Nokogiri刮:: HTML - 無法從XPATH獲取文本
<span id="J_WlAreaInfo" class="wl-areacon">
<span id="J-From">山東濟南</span>
至
<span id="J-To">
<span id="J_WlAddressInfo" class="wl-addressinfo" title="全國">
全國
<s></s>
</span>
</span>
</span>
我需要得到下面的文字:山東濟南
經過與螢火蟲最短XPATH:
//*[@id="J-From"]
這裏是我的Ruby代碼:
doc = Nokogiri::HTML(open("http://foo.html"), "UTF-8")
area = doc.xpath('//*[@id="J-From"]')
puts area.text
但是,它什麼也沒有返回。 我在做什麼錯?
也許你可以給我們一個鏈接的網頁?另外,你可以看看最初的頁面源代碼:可能是在頁面加載後在JavaScript中創建'',但Nokogiri沒有看到這樣的東西? – LarsH
你可能想看看在這裏關於打開uri的頂級投票答案http://stackoverflow.com/questions/2572396/nokogiri-open-uri-and-unicode-characters – jvnill
謝謝你們一千次,它是一個JS問題。 – Zoru