Q

使用BeautifulSoup分割HTML文檔

2011-02-24 57 views 4 likes

4

我們處理長聚合的HTML文檔（用於轉換爲PDF）。在某些情況下，聚合的HTML文檔必須按章節（以H1標籤開始的專用HTML頁面）或由子分頁（以H1或H2標籤開始的專用HTML頁面）分開。我們目前使用BeautifulSoup來處理彙總的HTML，但我們無法找到正確的方式使用BeautifulSoup以正確的方式提取子文檔（例如從第一個H1到下一個H2）。使用BeautifulSoup分割HTML文檔

2011-02-24 Andreas Jung

A

回答

2

我在使用BeautifulSoup方面有一些經驗，我不確定它是否支持您想要直接執行的操作。這裏有兩個想法

搜索

以下是它具有搜索功能的一些文件。也許你可以搜索這兩個的H1和硫化氫，看看有沒有什麼幫助提取子文檔

http://www.crummy.com/software/BeautifulSoup/documentation.html#Searching the Parse Tree

漂亮的打印+ grep的

BeautifulSoup有一個非常有用的美化功能，打印這個HTML。一旦完成，每個H1或H2將在自己的行上，在這種情況下，可以輕鬆使用文本操作實用程序（如grep）輕鬆確定行號。包含H1和H2，並簡單地介紹兩者之間的文字。

http://www.crummy.com/software/BeautifulSoup/documentation.html#Printing a Document

2011-02-24 04:08:11 Danish

+0

嗯，我很清楚BeautifulSoup的功能，並且不需要指向我知道的文檔的指針:) – 2011-02-24 04:11:08

+3

很高興知道你知道文檔的輸入和輸出。我做了2分，其中第2分不僅僅是指向文檔的指針。我只是覺得可能需要一種不同的方法。乾杯! – Danish 2011-02-24 04:33:22

-1

由於與解析器沒有解決方案已經向你求婚，我會建議你應該自己正則表達式的管理？

丹麥語的第二點具有相同的性質，因爲名稱grep來自'global - regular expression - print'。但事實證明，美化功能必須用於初步治療。

相反，正則表達式是一個強大的工具，可以直接在文本上使用。

您可以提供更多關於您想要做什麼的信息嗎？

2011-03-30 09:46:16 eyquem

相關問題