我們處理長聚合的HTML文檔(用於轉換爲PDF)。 在某些情況下,聚合的HTML文檔必須按章節(以H1標籤開始的專用HTML頁面)或由子分頁(以H1或H2標籤開始的專用HTML頁面)分開。我們目前使用BeautifulSoup來處理彙總的HTML,但我們無法找到正確的方式使用BeautifulSoup以正確的方式提取子文檔(例如從第一個H1到下一個H2)。使用BeautifulSoup分割HTML文檔
4
A
回答
2
我在使用BeautifulSoup方面有一些經驗,我不確定它是否支持您想要直接執行的操作。這裏有兩個想法
搜索
以下是它具有搜索功能的一些文件。也許你可以搜索這兩個的H1和硫化氫,看看有沒有什麼幫助提取子文檔
http://www.crummy.com/software/BeautifulSoup/documentation.html#Searching the Parse Tree
漂亮的打印+ grep的
BeautifulSoup有一個非常有用的美化功能,打印這個HTML。一旦完成,每個H1或H2將在自己的行上,在這種情況下,可以輕鬆使用文本操作實用程序(如grep)輕鬆確定行號。包含H1和H2,並簡單地介紹兩者之間的文字。
http://www.crummy.com/software/BeautifulSoup/documentation.html#Printing a Document
-1
由於與解析器沒有解決方案已經向你求婚,我會建議你應該自己正則表達式的管理?
丹麥語的第二點具有相同的性質,因爲名稱grep來自'global - regular expression - print'。但事實證明,美化功能必須用於初步治療。
相反,正則表達式是一個強大的工具,可以直接在文本上使用。
您可以提供更多關於您想要做什麼的信息嗎?
相關問題
- 1. 如何使用Nokogiri分割HTML文檔?
- 2. 如何使用BeautifulSoup按標籤分割文檔?
- 3. 將HTML文檔自動分割爲許多HTML文檔
- 4. 使用BeautifulSoup從文本/ html文檔獲取乾淨的文本
- 5. 使用perl分割html文件
- 6. 如何使用xsl分割html文件?
- 7. 分割文檔圖像
- 8. 使用BeautifulSoup清理html文檔和多個段落
- 9. 用BeautifulSoup獲取文檔DOCTYPE
- 10. 使用BeautifulSoup創建XML文檔
- 11. 使用lxml.html拆分HTML文檔
- 12. 在兩部分中分割html正文
- 13. 使用java分割文件
- 14. 使用javascript分割文本
- 15. 使用python分割文本
- 16. 使用BeautifulSoup修改HTML
- 17. 使用BeautifulSoup的HTML抓取
- 18. 使用BeautifulSoup解析HTML
- 19. 如何按字段ID分割文檔?
- 20. Python:使用多分割分隔符分割文件
- 21. 用BeautifulSoup讀取1000個XML文檔
- 22. HTML文檔,第2部分
- 23. 如何分割html?
- 24. 分割使用boost ::字符串分割
- 25. 分割的html文件內容到使用JavaScript和CSS在IE
- 26. 使用bat文件分割txt文件
- 27. 使用標題分割文本文件
- 28. 用BeautifulSoup迭代HTML
- 29. HTML :: PullParser隨機分割文本元素
- 30. 如何分割Javascript和HTML文件?
嗯,我很清楚BeautifulSoup的功能,並且不需要指向我知道的文檔的指針:) – 2011-02-24 04:11:08
很高興知道你知道文檔的輸入和輸出。我做了2分,其中第2分不僅僅是指向文檔的指針。我只是覺得可能需要一種不同的方法。乾杯! – Danish 2011-02-24 04:33:22