2013-04-29 78 views
0

我正在使用WebHarvest嘗試從Woot.com接收數據,並且出現了一些不同的錯誤。我能夠通過第一個進程獲取網站,但是當我嘗試在變量窗口內測試xpath時,出現錯誤org.xml.sax.SAXParseException; lineNumber:86; columnNumber:99;對實體「pt2」的引用必須以';'結尾分隔符。如果我嘗試使用漂亮的打印功能,則返回XML格式不正確:對實體「pt2」的引用必須以';'結尾。分隔符。 {line:86,col:99]。最後,在我寫的腳本里面,如果我在表達式中放入xpath標記,我得到元素類型「xpath」後面必須跟有屬性規範,「>」或「/>」。有人能告訴我我做錯了什麼嗎?我對WebHarvest非常陌生,對這種程序沒有任何經驗。Web收穫XML格式不正確

我的代碼是:

<?xml version="1.0" encoding="UTF-8"?><config> 
<xpath expression="(//div[@class="overview"])[1]//h2/text()"> 
<html-to-xml> 
<http url="http://www.woot.com/"/> 
</html-to-xml> 
</xpath> 
</config> 
+0

請分享您已創建的配置文件以獲得所需的輸出。並讓我們知道你真正想從Woot.com得到什麼網址 – 2013-04-29 04:33:42

回答

0

爲了使XML格式良好的你有屬性expression內使用&apos;代替&quot;。而且這裏有雲:

<?xml version="1.0" encoding="UTF-8"?><config> 
<xpath expression="(//div[@class='overview'])[1]//h2/text()"> 
<html-to-xml> 
<http url="http://www.woot.com/"/> 
</html-to-xml> 
</xpath> 
</config> 

你可以使用&apos;&quot;包的屬性。但是,它無法嵌套。下面是幾個例子:

<xpath expression='(//div[@class="overview"])[1]//h2/text()'>   --- valid 
<xpath expression='(//div[@class='overview'])[1]//h2/text()'>   --- invalid 
<xpath expression="(//div[@class="overview"])[1]//h2/text()">   --- invalid 
<xpath expression='(//div[@class=&apos;overview&apos;])[1]//h2/text()'> --- valid 
<xpath expression="(//div[@class=&apos;overview&apos;])[1]//h2/text()"> --- valid 
<xpath expression="(//div[@class=&quot;overview&quot;])[1]//h2/text()"> --- valid 

希望這有助於。

+0

我應該早點注意到,謝謝你的幫助! – user2330657 2013-04-29 17:59:02