2
我已經將網頁加載到HTML Agility Pack並具有DOM。我想使用XPATH來提取頁面上的所有文本(但不是在<script>
標籤中找到的JavaScript)。XPath「不」。忽略具有特定標記的分支
我想我需要一個// text(),然後'不'來忽略其中有<script>
的分支內的任何標籤。
我已經試過
doc.DocumentNode.SelectNodes("//text()[not(self::script)]"))
和
doc.DocumentNode.SelectNodes("//text()[not(script)]"))
但既不工作。他們返回是一個節點的XPath屬性的例子(注意腳本)
/html[1]/body[1]/div[2]/div[4]/div[1]/div[1]/div[1]/div[3]/script[1]/#text[1]
我已經與這兩個職位的諮詢。
Is it possible to do 'not' matching in XPath?
Grab all text from html with Html Agility Pack(這是一個很好的職位,但它帶來了JS)
有什麼建議?
這個工作.... // * [not(self :: script)]/text()(其他沒有出於某種原因)謝謝! – DJA 2012-02-28 21:49:33