我想提取「日期:2009-09-25,下午1時54 EDT」從這個網頁XPath表達式?
http://auburn.craigslist.org/sha/1392067187.html
但我不知道如何寫爲XPath表達式。
誰能幫我在這。
我正在等領域也從這個頁面。
我想提取「日期:2009-09-25,下午1時54 EDT」從這個網頁XPath表達式?
http://auburn.craigslist.org/sha/1392067187.html
但我不知道如何寫爲XPath表達式。
誰能幫我在這。
我正在等領域也從這個頁面。
你運行通過TIDY或其他一些過程把它變成XHTML的HTML?或者你如何能夠對該HTML執行XPATH?
如果文檔是合式,那麼你很可能使用以下XPath:
/html/body/hr[1]/following-sibling::text()[1]
它發現文檔中的第一人力資源要素,然後選擇第一個文本()節點下它(其中包含字符串「日期:2009-09-25,下午1時54 EDT」
非常感謝你解決了。我的問題。 – 2009-09-26 18:00:51
你爲什麼不只是運行類似下面的一個正則表達式?
'日期:\ S +([0-9] {4} - [0-9] {2} - [0-9] {2} + \ <。?)'
它接縫是最簡單的方法。如果你不希望使用純文本,你可以使用對正則表達式支持的XPath 2.0(FN:匹配)。
該網頁似乎並沒有被XML標準,因此XPath的可能不會有很大的幫助 – 2009-09-26 16:43:29