我試圖從以下結構的HTML文件中的文本:從HTML中提取文本穿插着大膽的標籤,維持秩序
<td class='srctext>
<pre>
<b> Heading 1 </b>
text
more text
<b> Heading 2 </b>
even more text,
<b> also some bold text </b>
and the last text
</pre>
要做到這一點我使用XPath的,像
//td[@class='srctext]/pre/b
這樣做我得到的所有粗體標記的內部文本,我也可以得到預先的整個內部文本,通過使用字符串()包裝。
但是我很努力做的,越來越像一個結果:
[
'Heading 1',
'text \n more text',
'Heading 2',
'even more text',
...
]
請不要猶豫,問,如果有不清楚的地方。