我有大量已被部分標記的OCR文檔。我試圖在目錄中創建工作鏈接。內容表的格式使用預先存在的文檔創建鏈接
<document>
<text>
<list>
<item>Chapter 1<ref>7</ref></item>
<item>Chapter 2<ref>27</ref></item>
<item>Chapter 3<ref>54</ref></item>
<item>Chapter 4<ref>77</ref></item>
</list>
<body>
OCRED text <pb n="7-8" xml:id="VAB0003"/> OCRED text
</body>
</document>
有沒有一種方法來測試,如果參考值是相同PB @n的價值的一部分,然後如果是這樣拉@xml的值:ID和在ref元素中使用它? 有沒有一個更復雜的方式來完成這個?
試着讓你的標題簡短和描述性! – Deepak
** n **屬性是否總是由兩部分組成,還是可以有多個連字符? –
它代表頁碼。它有時由兩部分組成,格式爲n-n(或nn-nn或nnn-nnn),有時只有一部分沒有短劃線。 – user1748728