2013-01-05 37 views
1

我已經環顧四周,試圖回答這個問題,但無濟於事。我解析wikimedia頁面轉儲處理某些頁面(是的,我知道幾個工具來解析wikimedia頁面轉儲,但它們不適合我和我的解析器)。如何檢測維基百科頁面中的部分轉儲

問題很簡單。我知道如何檢測節的開始(例如「==外部引用==」)。這很容易。什麼是不明確的是如何檢測一個部分何時結束?例如,對於大多數部分,我都可以掃描,直到下一部分標題開始,但這不可靠。我查看了維基媒體的部分幫助頁面,但並未說明如何檢測部分的結尾。

回答

1

MediaWiki syntax中沒有「部分結束」標記。部分一直延伸到相同或更低級別的下一部分標題。 (還有一個「部分0」含有所述第一區段標頭之前的所有文本。)

是的,這意味着,在不同層次段可以重疊,如在本實施例中:

This text is in section 0. 

== Section 1 begins here == 

This text is in section 1. 

=== Section 2 begins here === 

This text is in sections 1 and 2. 

=== Section 3 begins here === 

This text is in sections 1 and 3. 

== Section 4 begins here == 

This text is in section 4. 

注意使用HTML <h1><h2>等標籤創建的標題不會開始或結束節,並且不會有節編輯鏈接,即使它們看起來與節標題相同。模板內

章節標題做獲取部分編輯鏈接,讓你編輯模板的相應部分,但他們經過特殊處理的,並不會被視爲包含頁面的正截面結構的一部分。這裏還有一些奇怪的特殊情況,涉及模板參數中的部分標題,我沒有完全記住我的頭頂。

儘管使用= Heading =創建的任何額外的第一級標題都可以,但在每個頁面頂部的自動生成的第一級標題也不會被視爲標題標題。

+0

感謝您的詳細回覆。 – rational