2011-02-24 57 views
4

我們處理長聚合的HTML文檔(用於轉換爲PDF)。 在某些情況下,聚合的HTML文檔必須按章節(以H1標籤開始的專用HTML頁面)或由子分頁(以H1或H2標籤開始的專用HTML頁面)分開。我們目前使用BeautifulSoup來處理彙總的HTML,但我們無法找到正確的方式使用BeautifulSoup以正確的方式提取子文檔(例如從第一個H1到下一個H2)。使用BeautifulSoup分割HTML文檔

回答

2

我在使用BeautifulSoup方面有一些經驗,我不確定它是否支持您想要直接執行的操作。這裏有兩個想法

搜索

以下是它具有搜索功能的一些文件。也許你可以搜索這兩個的H1和硫化氫,看看有沒有什麼幫助提取子文檔

http://www.crummy.com/software/BeautifulSoup/documentation.html#Searching the Parse Tree

漂亮的打印+ grep的

BeautifulSoup有一個非常有用的美化功能,打印這個HTML。一旦完成,每個H1或H2將在自己的行上,在這種情況下,可以輕鬆使用文本操作實用程序(如grep)輕鬆確定行號。包含H1和H2,並簡單地介紹兩者之間的文字。

http://www.crummy.com/software/BeautifulSoup/documentation.html#Printing a Document

+0

嗯,我很清楚BeautifulSoup的功能,並且不需要指向我知道的文檔的指針:) – 2011-02-24 04:11:08

+3

很高興知道你知道文檔的輸入和輸出。我做了2分,其中第2分不僅僅是指向文檔的指針。我只是覺得可能需要一種不同的方法。乾杯! – Danish 2011-02-24 04:33:22

-1

由於與解析器沒有解決方案已經向你求婚,我會建議你應該自己正則表達式的管理?

丹麥語的第二點具有相同的性質,因爲名稱grep來自'global - regular expression - print'。但事實證明,美化功能必須用於初步治療。

相反,正則表達式是一個強大的工具,可以直接在文本上使用。

您可以提供更多關於您想要做什麼的信息嗎?