XPath表達式？

我想提取「日期：2009-09-25，下午1時54 EDT」從這個網頁XPath表達式？

http://auburn.craigslist.org/sha/1392067187.html

但我不知道如何寫爲XPath表達式。

誰能幫我在這。

我正在等領域也從這個頁面。

該網頁似乎並沒有被XML標準，因此XPath的可能不會有很大的幫助 – 2009-09-26 16:43:29

你運行通過TIDY或其他一些過程把它變成XHTML的HTML？或者你如何能夠對該HTML執行XPATH？

如果文檔是合式，那麼你很可能使用以下XPath：

/html/body/hr[1]/following-sibling::text()[1]

它發現文檔中的第一人力資源要素，然後選擇第一個文本（）節點下它（其中包含字符串「日期：2009-09-25，下午1時54 EDT」

2009-09-26 17:49:28

非常感謝你解決了。我的問題。 – 2009-09-26 18:00:51

你爲什麼不只是運行類似下面的一個正則表達式？

'日期：\ S +（[0-9] {4} - [0-9] {2} - [0-9] {2} + \ <。？）'

它接縫是最簡單的方法。如果你不希望使用純文本，你可以使用對正則表達式支持的XPath 2.0（FN：匹配）。

2009-09-26 17:29:45

回答