2009-09-26 121 views
1

我想提取「日期:2009-09-25,下午1時54 EDT」從這個網頁XPath表達式?

http://auburn.craigslist.org/sha/1392067187.html 

但我不知道如何寫爲XPath表達式。

誰能幫我在這。

我正在等領域也從這個頁面。

+2

該網頁似乎並沒有被XML標準,因此XPath的可能不會有很大的幫助 – 2009-09-26 16:43:29

回答

1

你運行通過TIDY或其他一些過程把它變成XHTML的HTML?或者你如何能夠對該HTML執行XPATH?

如果文檔是合式,那麼你很可能使用以下XPath:

/html/body/hr[1]/following-sibling::text()[1] 

它發現文檔中的第一人力資源要素,然後選擇第一個文本()節點下它(其中包含字符串「日期:2009-09-25,下午1時54 EDT」

+0

非常感謝你解決了。我的問題。 – 2009-09-26 18:00:51

2

你爲什麼不只是運行類似下面的一個正則表達式?

'日期:\ S +([0-9] {4} - [0-9] {2} - [0-9] {2} + \ <。?)'

它接縫是最簡單的方法。如果你不希望使用純文本,你可以使用對正則表達式支持的XPath 2.0(FN:匹配)。