我的來源是:查找元素
<content>
<caption>text 1</caption>
<element1>Notepad is a basic text-editing program and it's most commonly used to view or edit text files. A text <bold>file</bold> is a <a>file</a> type typically identified by the .txt file name extension.</element1>
<section1>
<element2>Notepad is a basic text-editing program and it's most commonly used to view or edit text files. A text file is a file type typically identified by the .txt file name extension.</element2>
</section1>
</content>
我試圖提取併爲元素打造獨一無二的ID(它可以是任何元素),其中有兩個孩子(字符元素)和文本,還有隻有文本的元素。 <bold>
和<a>
元素不應該分開。
<caption id="id1">Text 1</caption>
<element1 id="id2">Notepad is a basic text-editing program and it's most commonly used to view or edit text files. A text <bold>file</bold> is a <a>file</a> type typically identified by the .txt file name extension.</element1>
<element2 id="id3">Notepad....</element2>
任何想法,將不勝感激......
你的輸出格式是和?你想跳過他們嗎? –
是的我想只提取包含字符串/字符串+子元素(字符)元素的元素。只有子元素但沒有PCDATA的元素不需要考慮。 – VSr
您的示例中的**標題**和** element2 **元素沒有子元素,但仍具有id屬性。這似乎與您說要從具有子項和文本的元素創建ID的位置相矛盾。它是否正確?謝謝! –