我正在從HTML文檔中提取文本並存儲在數據庫中。我正在使用webharvest工具來提取內容。不過,我有點卡住了。 webarvest內部我使用XQuery表達式來提取數據。那我解析HTML文件如下:Xquery在HTML中提取文本
<td><a name="hw">HELLOWORLD</a>Hello world</td>
我需要提取從上面的HTML腳本「Hello World」文本。
我試圖以這種方式提取文本:
$hw :=data($item//a[@name='hw']/text())
但是我始終得到的是「HelloWorld」的,而不是「世界,你好」。
有沒有辦法提取「Hello World」。請幫忙。
如果我想這樣做是這樣的:
<td>
<a name="hw1">HELLOWORLD1</a>Hello world1
<a name="hw2">HELLOWORLD2</a>Hello world2
<a name="hw3">HELLOWORLD3</a>Hello world3
</td>
我想提取文本世界,你好2是在betweeb HW2和HW3。我不想使用text()[3],但有什麼方法可以在/ a [@ name ='hw2']和/ a [@ name ='hw3']之間提取文本。
好問題(+1)。查看我的答案,找出您可能需要的解決方案。 – 2010-06-23 13:33:24